2025年5月,理想在一场内部活动上展示了一段视频。视频中,一辆理想L9驶入一个从未到过的路口,前方是临时搭建的施工区域,路面上没有标线,两侧摆放着反光锥,一个工人正在指挥交通。车辆没有慌张,减速后向左变道,绕过施工区域,重新汇入车流。
这段视频之所以让现场的工程师们兴奋,不是因为变道本身——任何一台搭载高阶智驾的车都能做到。真正让他们兴奋的是这辆车变道的原因:它"理解"了施工区域的语义,而不仅仅是"检测"到了反光锥的位置。
这就是VLA(Vision-Language-Action,视觉-语言-动作)和传统端到端的根本区别。传统端到端的做法是"行为克隆"——用海量人类驾驶数据训练模型,让AI照搬人类的操作。看到反光锥就刹车,看到标线就跟随,这本质上是一种高级的模仿。VLA的做法是让AI先"理解"场景,再通过推理做出决策。它不是一个被动的复制者,而是一个主动的思考者。
两者的差距在Corner Case中会被无限放大。传统端到端模型面对从未见过的场景时,要么"乱来"——做出明显错误的决策,要么"罢工"——退出智驾把控制权交给人类。因为它的决策依据是"历史数据中有没有见过类似的",没见过就没有答案。VLA模型面对同样场景时,会先在内部完成一轮语义推理:"前方有施工区域→有工人在指挥→通行空间变窄→需要减速并寻找安全的绕行路线→左侧车道空旷→执行左变道"。这个推理链条虽然不一定每次都对,但至少提供了一种超越"经验匹配"的决策机制。
2026年3月,理想自动驾驶基座模型负责人詹锟在NVIDIA GTC 2026上发布了下一代模型MindVLA-o1,把这个理念推到了新高度。训练成本降低约75%,引入预测式隐世界模型,原生多模态MoE架构——这些技术术语背后的核心叙事是:理想正在把自动驾驶从"参数竞赛"拉入"认知竞赛"。
VLA不是凭空冒出来的,它是理想在自动驾驶技术路线上持续迭代的第四代产物。
回看这四年,理想的智驾路线走了一个清晰的"由浅入深"的路径。2023年及之前,理想的主力是NPN先验网络,核心任务是在已建图的城市中建立稳定的感知能力。这个阶段的技术底子是高精地图——车知道自己的精确位置,也知道周围的精确路况,导航更像是在执行一条预设好的轨道。这个方案在高速和快速路上表现良好,但在城市复杂路口、临时施工区域等高变化场景中就捉襟见肘了。
2024年,理想开始推进"无图化"——摆脱对高精地图的依赖,用车载传感器实时感知环境。这个转变的代价是研发投入的激增,但收益是场景覆盖能力的质变:不再受限于地图覆盖范围,理论上"车能开到哪里,智驾就能用到哪里"。2024年底,理想无图NOA在全国361个城市落地,覆盖了绝大多数城市道路。
2025年初,端到端+VLM的方案接棒。VLM(视觉语言模型)的引入是一个转折点——它让智驾系统第一次有了"语义理解"的能力,不再只是处理像素和点云,而是能理解"前方有交警在指挥交通""这里是学校区域""右侧车道在施工"这类需要语言推理的场景。
2025年5月至今,VLA司机大模型成为主轴。它在VLM的基础上进一步打通了"理解"到"行动"的链路——不仅理解场景,还直接生成驾驶动作序列。用户通过VLA指令与智驾系统自然语言交互,比如"跟着前车走""变到左侧车道",系统理解语义后直接执行。这个交互方式的改变让用户对智驾的信任感大幅提升——月使用率从端到端时期的不足50%跃升至80%,全年VLA指令累计使用超过1225万次。
这四步走的每一步都不是颠覆式的,而是在前一步的基础上叠加新能力。但四步叠加之后,理想智驾系统的"能力模型"已经发生了质变——从"在高精地图上跑"到"实时感知世界"再到"理解世界语义"最后到"像人一样思考和决策"。每一步的幅度不大,但方向从未改变。
MindVLA-o1不是一个单独的模型,而是一个由四个模块组成的完整系统。理想的技术团队把它描述为"AI闭环"——数据进入、模型训练、仿真验证、强化学习、再回到车端部署,每个环节都在为下一个环节提供更好的输入。
第一个模块是MindData,数据引擎。 数据是VLA的燃料,而理想在数据方面的积累正在加速。2025年春节期间辅助驾驶总里程达2.5亿公里,VLA指令使用130.3万次。全年累计VLA指令使用1225.4万次,月使用率达到80%。这些真实驾驶行为产生的数据,比任何仿真都更有价值——因为它们包含了人类驾驶员面对复杂场景时的真实决策逻辑。
但数据质量比数量更重要。理想没有公开详细的数据清洗流程,但从行业经验看,VLA模型需要的是"有信息量的数据"——高速公路上300公里的匀速巡航对模型训练几乎没有帮助,而一个包含突然变道、行人横穿、施工绕行的5分钟城市通勤片段,可能抵得上300公里的高速数据。如何从海量原始数据中高效地筛选出"有信息量"的片段,是数据引擎的核心能力。
第二个模块是MindVLA-o1本身,核心模型。 它的技术架构围绕五个维度展开。感知层用3D ViT Encoder作为"眼睛",激光雷达的点云数据作为三维几何的提示信号,让模型既能"看到"图像又能"理解"空间关系。思考层在传统语言模型的基础上引入了"预测式隐世界模型"——这个概念可以理解为AI的"预演系统"。就像人类驾驶员变道之前会下意识判断旁边车辆的速度和距离一样,VLA会在隐空间中模拟未来多种可能性,选择最优的行动方案。
执行层的技术细节更值得深挖。传统端到端模型是逐点生成轨迹,速度慢且容易累积误差。MindVLA-o1采用了VLA-MoE架构,引入专门的Action Expert模块,可以同时并行解码所有轨迹点,再通过离散扩散进行多轮迭代优化。如果说传统端到端是"一步一步算",那MoE架构就是"同时算好几步,再选最好的一条"。
进化层和部署层是支撑长期竞争力的关键。闭环强化学习配合前馈式场景重建,能够在虚拟环境中瞬时生成大规模高保真场景用于训练——理想宣称整体训练成本降低约75%,这在算力价格仍然高企的当下是一个非常重要的效率指标。部署层提出的"软硬件协同设计定律"则针对端侧部署的痛点:先建模芯片硬件的算力限制,再反向约束模型结构设计,避免"模型能跑但芯片扛不住"的错配。
第三个模块是MindSim,世界模型。 它的用途是在虚拟环境中生成极端场景——连环事故、突然窜出的行人、暴雨中的高速变道——让模型在没有真实数据的情况下也能学习应对。这类场景在现实中发生概率极低,但一旦发生,模型的应对能力直接关系到生命安全。世界模型的意义在于把"靠运气积累的极端场景经验"变成"靠算力批量生成的训练数据"。
第四个模块是RL Infra,强化学习基础设施。 这是VLA区别于传统端到端的关键所在。行为克隆只能让模型"学会人类已有的操作",强化学习能让模型"探索人类没试过但可能更好的操作"。两者的区别,好比一个是跟着师傅学炒菜,一个是自己反复试哪种火候和调料搭配最好吃。前者学得快但上限受限于师傅的水平,后者学得慢但有可能做出师傅都没想到的新菜。
四个模块协同运作,构成了理想的自动驾驶AI闭环。每个环节的输出都是下一个环节的输入,数据质量决定模型上限,模型能力决定仿真精度,仿真精度决定强化学习效率,强化学习的成果又反过来提升数据引擎的标注质量。这个飞轮一旦转起来,速度会越来越快。
VLA不是理想的独门秘技。特斯拉走纯视觉端到端路线,华为走"感知-决策-控制"分模块路线,小鹏也在2025年发布了XNGP 5.0的纯视觉方案。每家都在探索最优的技术路径,但目前还没有人能给出定论。
三条路线的本质分歧在于如何理解驾驶场景。
特斯拉的答案是"看多了就会"。FSD基于海量用户数据的行为克隆,通过数据驱动的方式覆盖尽可能多的场景。北美超过200万活跃FSD用户每天产生数百万英里的驾驶数据,这些数据持续反哺模型训练。优势是数据量最大、覆盖场景最广;劣势是对从未见过的Corner Case缺乏推理能力,只能靠持续推送版本来修补。
华为的答案是"分而治之"。ADS将感知、决策、控制拆分为独立模块,每个模块各司其职。优势是安全性和可解释性强——出了问题能定位到具体模块,监管和审计也更容易通过;劣势是模块之间的信息传递会损失效率,难以实现真正的端到端优化。
理想的答案是"先理解再行动"。VLA在视觉感知和动作输出之间插入了一个"语言推理"层,让模型先用自然语言描述场景、分析问题、规划策略,再转化为具体的驾驶动作。理论上,这种架构在面对需要语义推理的复杂场景时——比如理解交警手势的含义、判断前方施工区域的正确通行策略——应该比纯视觉端到端和分模块方案都更有优势。
但理论和现实之间总有一段距离。郎咸朋在2026年初曾表示,OTA 8.2后的VLA"非常确认是行业领先"。在北京、上海、深圳、杭州累计实测上千公里后,理想预计到2026年底系统MPI(平均接管里程)将突破1000公里。作为参照,华为ADS 3.0的MPI在部分城市已超过2000公里,特斯拉FSD V13在北美也达到了类似水平。理想的VLA确实在快速追赶,但"领先"这个判断能否经得起第三方测试的验证,还需要更多城市、更多用户、更多极端场景的持续考验。
VLA路线面临的最大挑战不是技术不够先进,而是一个看似矛盾的问题:生成式模型的核心特征是"不确定性输出",而自动驾驶的核心要求是"确定性安全"。
ChatGPT每次回答同一个问题,措辞可能不同,甚至可能出现幻觉——在聊天场景中这顶多是用户体验问题。但在驾驶场景中,面对同一个前方障碍物,模型这次的决策是"左变道",下次的决策是"急刹车",这种不确定性是不可接受的。
理想在MindVLA-o1中引入了两层安全约束来解决这个矛盾。第一层是离散扩散机制——模型生成的轨迹不是一步到位的,而是经过多轮迭代优化,每轮都会检查轨迹是否符合车辆动力学约束(比如最大转向角、最大加速度)。不符合的轨迹会被修正或淘汰。第二层是外部安全规则层——在VLA的推理结果之上叠加一套硬编码的安全规则,当模型输出明显违反安全规则的操作时,安全规则层会强制否决。
这两层约束在工程上有效,但引入了一个新的问题:当安全规则频繁否决VLA的输出时,系统的"智能性"就被削弱了——用户会感觉车辆在某些场景下"过于保守",明明可以通行却选择停车等待。这种"安全性"和"智能性"的平衡,是所有生成式智驾方案都需要面对的工程难题。
更深层的问题是可解释性。当传统模块化方案出错时,工程师可以逐层回溯:是感知模块把锥桶识别成了垃圾桶?还是决策模块选择了错误的变道策略?每个环节都有明确的输入输出,问题定位相对简单。VLA方案的决策过程发生在一个巨大的神经网络内部,当输出错误时,工程师很难精确判断是哪个环节出了问题——是语义理解错了?是推理链条断了?还是执行层翻译有误?这种"黑箱"特性在研发阶段会增加调试成本,在事故调查中也会增加责任界定的难度。
如果只把VLA看作自动驾驶系统,那就低估了理想的野心。
在理想的技术叙事中,汽车被定义为"跑在路上的具身智能体"。MindVLA-o1的四大模块——数据引擎、核心模型、世界模型、强化学习——构成的不是一个专用于驾驶的系统,而是一个通用的物理AI框架。这个框架的能力可以迁移到任何需要"感知环境-理解语义-执行动作"的场景——包括家庭服务机器人、工业物流机器人、仓储机器人。
2025年,理想投资了斜跃智能(由前理想高管创办的家庭机器人公司),这正是VLA能力外溢的第一步。家庭场景和驾驶场景的复杂度完全不同——家庭环境是非结构化的、高度动态的、包含大量需要常识推理的任务——但核心的认知框架是相通的:感知环境、理解指令、规划动作、安全执行。
马赫100芯片则提供了算力基座。5nm制程、单颗1280TOPS、双颗2560TOPS,这样的端侧算力不仅足够部署当前参数量的VLA模型,还为未来更大规模的模型留出了空间。当芯片+算法+数据三个要素齐备,理想就拥有了向"具身智能平台"跃迁的技术底座。
但终局仍远。VLA目前的月使用率80%、MPI目标1000公里,在用户体验层面距离"离不开"还有相当的距离。从"能用"到"好用"再到"不可或缺",每一步跨越都需要技术迭代和用户教育的双重投入。理想在自动驾驶上的年研发投入已经超过60亿元,利润同比下降99%——这些数字说明,这场AI豪赌的筹码已经加到了最大。
下一个关键验证节点是L9 Livis的量产交付。搭载双马赫100芯片、全主动悬架、360度激光雷达布局的新旗舰,是理想VLA能力最完整的载体。如果L9 Livis的智驾体验能够真正兑现"行业领先"的承诺,理想就完成了从"增程之王"到"AI先锋"的身份转换的第一步。至于这一步走得好不好,2026年下半年,用户和市场会给答案。
(雷峰网(公众号:雷峰网)新智驾北京车展2026专题)