凭什么说自己领先特斯拉和华为？理想VLA研发复盘

北京车展2026 理想特斯拉

2026/04/21 21:35

当AI不再"照抄"人类开车

2025年5月，理想在一场内部活动上展示了一段视频。视频中，一辆理想L9驶入一个从未到过的路口，前方是临时搭建的施工区域，路面上没有标线，两侧摆放着反光锥，一个工人正在指挥交通。车辆没有慌张，减速后向左变道，绕过施工区域，重新汇入车流。

这段视频之所以让现场的工程师们兴奋，不是因为变道本身——任何一台搭载高阶智驾的车都能做到。真正让他们兴奋的是这辆车变道的原因：它"理解"了施工区域的语义，而不仅仅是"检测"到了反光锥的位置。

这就是VLA（Vision-Language-Action，视觉-语言-动作）和传统端到端的根本区别。传统端到端的做法是"行为克隆"——用海量人类驾驶数据训练模型，让AI照搬人类的操作。看到反光锥就刹车，看到标线就跟随，这本质上是一种高级的模仿。VLA的做法是让AI先"理解"场景，再通过推理做出决策。它不是一个被动的复制者，而是一个主动的思考者。

两者的差距在Corner Case中会被无限放大。传统端到端模型面对从未见过的场景时，要么"乱来"——做出明显错误的决策，要么"罢工"——退出智驾把控制权交给人类。因为它的决策依据是"历史数据中有没有见过类似的"，没见过就没有答案。VLA模型面对同样场景时，会先在内部完成一轮语义推理："前方有施工区域→有工人在指挥→通行空间变窄→需要减速并寻找安全的绕行路线→左侧车道空旷→执行左变道"。这个推理链条虽然不一定每次都对，但至少提供了一种超越"经验匹配"的决策机制。

2026年3月，理想自动驾驶基座模型负责人詹锟在NVIDIA GTC 2026上发布了下一代模型MindVLA-o1，把这个理念推到了新高度。训练成本降低约75%，引入预测式隐世界模型，原生多模态MoE架构——这些技术术语背后的核心叙事是：理想正在把自动驾驶从"参数竞赛"拉入"认知竞赛"。

理想智驾的四年进化史

VLA不是凭空冒出来的，它是理想在自动驾驶技术路线上持续迭代的第四代产物。

回看这四年，理想的智驾路线走了一个清晰的"由浅入深"的路径。2023年及之前，理想的主力是NPN先验网络，核心任务是在已建图的城市中建立稳定的感知能力。这个阶段的技术底子是高精地图——车知道自己的精确位置，也知道周围的精确路况，导航更像是在执行一条预设好的轨道。这个方案在高速和快速路上表现良好，但在城市复杂路口、临时施工区域等高变化场景中就捉襟见肘了。

2024年，理想开始推进"无图化"——摆脱对高精地图的依赖，用车载传感器实时感知环境。这个转变的代价是研发投入的激增，但收益是场景覆盖能力的质变：不再受限于地图覆盖范围，理论上"车能开到哪里，智驾就能用到哪里"。2024年底，理想无图NOA在全国361个城市落地，覆盖了绝大多数城市道路。

2025年初，端到端+VLM的方案接棒。VLM（视觉语言模型）的引入是一个转折点——它让智驾系统第一次有了"语义理解"的能力，不再只是处理像素和点云，而是能理解"前方有交警在指挥交通""这里是学校区域""右侧车道在施工"这类需要语言推理的场景。

2025年5月至今，VLA司机大模型成为主轴。它在VLM的基础上进一步打通了"理解"到"行动"的链路——不仅理解场景，还直接生成驾驶动作序列。用户通过VLA指令与智驾系统自然语言交互，比如"跟着前车走""变到左侧车道"，系统理解语义后直接执行。这个交互方式的改变让用户对智驾的信任感大幅提升——月使用率从端到端时期的不足50%跃升至80%，全年VLA指令累计使用超过1225万次。

这四步走的每一步都不是颠覆式的，而是在前一步的基础上叠加新能力。但四步叠加之后，理想智驾系统的"能力模型"已经发生了质变——从"在高精地图上跑"到"实时感知世界"再到"理解世界语义"最后到"像人一样思考和决策"。每一步的幅度不大，但方向从未改变。

四个模块拼成的大脑

MindVLA-o1不是一个单独的模型，而是一个由四个模块组成的完整系统。理想的技术团队把它描述为"AI闭环"——数据进入、模型训练、仿真验证、强化学习、再回到车端部署，每个环节都在为下一个环节提供更好的输入。

第一个模块是MindData，数据引擎。 数据是VLA的燃料，而理想在数据方面的积累正在加速。2025年春节期间辅助驾驶总里程达2.5亿公里，VLA指令使用130.3万次。全年累计VLA指令使用1225.4万次，月使用率达到80%。这些真实驾驶行为产生的数据，比任何仿真都更有价值——因为它们包含了人类驾驶员面对复杂场景时的真实决策逻辑。

但数据质量比数量更重要。理想没有公开详细的数据清洗流程，但从行业经验看，VLA模型需要的是"有信息量的数据"——高速公路上300公里的匀速巡航对模型训练几乎没有帮助，而一个包含突然变道、行人横穿、施工绕行的5分钟城市通勤片段，可能抵得上300公里的高速数据。如何从海量原始数据中高效地筛选出"有信息量"的片段，是数据引擎的核心能力。

第二个模块是MindVLA-o1本身，核心模型。 它的技术架构围绕五个维度展开。感知层用3D ViT Encoder作为"眼睛"，激光雷达的点云数据作为三维几何的提示信号，让模型既能"看到"图像又能"理解"空间关系。思考层在传统语言模型的基础上引入了"预测式隐世界模型"——这个概念可以理解为AI的"预演系统"。就像人类驾驶员变道之前会下意识判断旁边车辆的速度和距离一样，VLA会在隐空间中模拟未来多种可能性，选择最优的行动方案。

执行层的技术细节更值得深挖。传统端到端模型是逐点生成轨迹，速度慢且容易累积误差。MindVLA-o1采用了VLA-MoE架构，引入专门的Action Expert模块，可以同时并行解码所有轨迹点，再通过离散扩散进行多轮迭代优化。如果说传统端到端是"一步一步算"，那MoE架构就是"同时算好几步，再选最好的一条"。

进化层和部署层是支撑长期竞争力的关键。闭环强化学习配合前馈式场景重建，能够在虚拟环境中瞬时生成大规模高保真场景用于训练——理想宣称整体训练成本降低约75%，这在算力价格仍然高企的当下是一个非常重要的效率指标。部署层提出的"软硬件协同设计定律"则针对端侧部署的痛点：先建模芯片硬件的算力限制，再反向约束模型结构设计，避免"模型能跑但芯片扛不住"的错配。

第三个模块是MindSim，世界模型。 它的用途是在虚拟环境中生成极端场景——连环事故、突然窜出的行人、暴雨中的高速变道——让模型在没有真实数据的情况下也能学习应对。这类场景在现实中发生概率极低，但一旦发生，模型的应对能力直接关系到生命安全。世界模型的意义在于把"靠运气积累的极端场景经验"变成"靠算力批量生成的训练数据"。

第四个模块是RL Infra，强化学习基础设施。 这是VLA区别于传统端到端的关键所在。行为克隆只能让模型"学会人类已有的操作"，强化学习能让模型"探索人类没试过但可能更好的操作"。两者的区别，好比一个是跟着师傅学炒菜，一个是自己反复试哪种火候和调料搭配最好吃。前者学得快但上限受限于师傅的水平，后者学得慢但有可能做出师傅都没想到的新菜。

四个模块协同运作，构成了理想的自动驾驶AI闭环。每个环节的输出都是下一个环节的输入，数据质量决定模型上限，模型能力决定仿真精度，仿真精度决定强化学习效率，强化学习的成果又反过来提升数据引擎的标注质量。这个飞轮一旦转起来，速度会越来越快。

一场关于"怎么理解世界"的路线之争

VLA不是理想的独门秘技。特斯拉走纯视觉端到端路线，华为走"感知-决策-控制"分模块路线，小鹏也在2025年发布了XNGP 5.0的纯视觉方案。每家都在探索最优的技术路径，但目前还没有人能给出定论。

三条路线的本质分歧在于如何理解驾驶场景。

特斯拉的答案是"看多了就会"。FSD基于海量用户数据的行为克隆，通过数据驱动的方式覆盖尽可能多的场景。北美超过200万活跃FSD用户每天产生数百万英里的驾驶数据，这些数据持续反哺模型训练。优势是数据量最大、覆盖场景最广；劣势是对从未见过的Corner Case缺乏推理能力，只能靠持续推送版本来修补。

华为的答案是"分而治之"。ADS将感知、决策、控制拆分为独立模块，每个模块各司其职。优势是安全性和可解释性强——出了问题能定位到具体模块，监管和审计也更容易通过；劣势是模块之间的信息传递会损失效率，难以实现真正的端到端优化。

理想的答案是"先理解再行动"。VLA在视觉感知和动作输出之间插入了一个"语言推理"层，让模型先用自然语言描述场景、分析问题、规划策略，再转化为具体的驾驶动作。理论上，这种架构在面对需要语义推理的复杂场景时——比如理解交警手势的含义、判断前方施工区域的正确通行策略——应该比纯视觉端到端和分模块方案都更有优势。

但理论和现实之间总有一段距离。郎咸朋在2026年初曾表示，OTA 8.2后的VLA"非常确认是行业领先"。在北京、上海、深圳、杭州累计实测上千公里后，理想预计到2026年底系统MPI（平均接管里程）将突破1000公里。作为参照，华为ADS 3.0的MPI在部分城市已超过2000公里，特斯拉FSD V13在北美也达到了类似水平。理想的VLA确实在快速追赶，但"领先"这个判断能否经得起第三方测试的验证，还需要更多城市、更多用户、更多极端场景的持续考验。

安全冗余：生成式AI的天生矛盾

VLA路线面临的最大挑战不是技术不够先进，而是一个看似矛盾的问题：生成式模型的核心特征是"不确定性输出"，而自动驾驶的核心要求是"确定性安全"。

ChatGPT每次回答同一个问题，措辞可能不同，甚至可能出现幻觉——在聊天场景中这顶多是用户体验问题。但在驾驶场景中，面对同一个前方障碍物，模型这次的决策是"左变道"，下次的决策是"急刹车"，这种不确定性是不可接受的。

理想在MindVLA-o1中引入了两层安全约束来解决这个矛盾。第一层是离散扩散机制——模型生成的轨迹不是一步到位的，而是经过多轮迭代优化，每轮都会检查轨迹是否符合车辆动力学约束（比如最大转向角、最大加速度）。不符合的轨迹会被修正或淘汰。第二层是外部安全规则层——在VLA的推理结果之上叠加一套硬编码的安全规则，当模型输出明显违反安全规则的操作时，安全规则层会强制否决。

这两层约束在工程上有效，但引入了一个新的问题：当安全规则频繁否决VLA的输出时，系统的"智能性"就被削弱了——用户会感觉车辆在某些场景下"过于保守"，明明可以通行却选择停车等待。这种"安全性"和"智能性"的平衡，是所有生成式智驾方案都需要面对的工程难题。

更深层的问题是可解释性。当传统模块化方案出错时，工程师可以逐层回溯：是感知模块把锥桶识别成了垃圾桶？还是决策模块选择了错误的变道策略？每个环节都有明确的输入输出，问题定位相对简单。VLA方案的决策过程发生在一个巨大的神经网络内部，当输出错误时，工程师很难精确判断是哪个环节出了问题——是语义理解错了？是推理链条断了？还是执行层翻译有误？这种"黑箱"特性在研发阶段会增加调试成本，在事故调查中也会增加责任界定的难度。

从车到机器人：VLA的终局想象

如果只把VLA看作自动驾驶系统，那就低估了理想的野心。

在理想的技术叙事中，汽车被定义为"跑在路上的具身智能体"。MindVLA-o1的四大模块——数据引擎、核心模型、世界模型、强化学习——构成的不是一个专用于驾驶的系统，而是一个通用的物理AI框架。这个框架的能力可以迁移到任何需要"感知环境-理解语义-执行动作"的场景——包括家庭服务机器人、工业物流机器人、仓储机器人。

2025年，理想投资了斜跃智能（由前理想高管创办的家庭机器人公司），这正是VLA能力外溢的第一步。家庭场景和驾驶场景的复杂度完全不同——家庭环境是非结构化的、高度动态的、包含大量需要常识推理的任务——但核心的认知框架是相通的：感知环境、理解指令、规划动作、安全执行。

马赫100芯片则提供了算力基座。5nm制程、单颗1280TOPS、双颗2560TOPS，这样的端侧算力不仅足够部署当前参数量的VLA模型，还为未来更大规模的模型留出了空间。当芯片+算法+数据三个要素齐备，理想就拥有了向"具身智能平台"跃迁的技术底座。

但终局仍远。VLA目前的月使用率80%、MPI目标1000公里，在用户体验层面距离"离不开"还有相当的距离。从"能用"到"好用"再到"不可或缺"，每一步跨越都需要技术迭代和用户教育的双重投入。理想在自动驾驶上的年研发投入已经超过60亿元，利润同比下降99%——这些数字说明，这场AI豪赌的筹码已经加到了最大。

下一个关键验证节点是L9 Livis的量产交付。搭载双马赫100芯片、全主动悬架、360度激光雷达布局的新旗舰，是理想VLA能力最完整的载体。如果L9 Livis的智驾体验能够真正兑现"行业领先"的承诺，理想就完成了从"增程之王"到"AI先锋"的身份转换的第一步。至于这一步走得好不好，2026年下半年，用户和市场会给答案。

（雷峰网(公众号：雷峰网)新智驾北京车展2026专题）

专题

理想：All in AI重新定义自己查看更多文章