不止于智驾：小米AI大模型如何串联座舱、驾驶与人车家全生态

北京车展2026 小米AI大模型米家生态

2026/04/21 21:33

2025年3月，小米汽车发布了一组让行业意外的数据：XLA认知大模型研发投入已达57.9亿元，团队规模超过1800人，测试车队超过400台。

这个投入规模放在全行业是什么概念？小米作为一个2024年3月才交付第一辆车的品牌，在智驾AI上的资源投入已经跻身行业第一梯队。

更让人意外的是，这组数据不只服务于智驾。在小米的AI版图里，驾驶只是一条支线——座舱里的超级小爱、手机上的海量用户、家里的智能空调和扫地机器人，都站在同一条大模型底座之上。

这就是小米和其他车企最大的不同。华为ADS专注把驾驶做到极致，特斯拉FSD把纯视觉路线走到黑，而小米的XLA从一开始就不是"智驾大模型"——它是一个认知大模型，碰巧也能开车。

数据驱动的技术进化

2025年7月，小米向用户推送了基于1000万个Clips训练的新版XLA。所谓Clip，是小米对训练数据的基本单元定义：每段约30秒的多传感器同步记录，融合激光雷达点云、摄像头图像、毫米波雷达信号、导航路径和车外声音。1000万Clips，意味着超过8300小时的真实道路驾驶场景，全部来自中国路况。

8300个小时是什么概念？一个全职网约车司机一年的运营时长大约在2500到3000小时之间。也就是说，XLA的训练数据量相当于近3个司机连续不断地开了三年车，而且这些数据不是来自单个城市，而是覆盖了中国各地的高速公路、城市快速路、城中村窄路、环岛路口等各种场景。

截至2025年11月，小米汽车辅助驾驶用户达47.3万人，累计辅助驾驶里程突破3亿公里，避免可能的碰撞累计45.7万次，泊车辅助累计使用3096.4万次。辅助驾驶功能活跃占比达90%。

这个数据增长速度在行业内相当可观。更重要的是，这3亿公里全部来自小米自研系统的真实用户数据，数据闭环的纯净度远高于采购第三方方案的车企。

XLA的潜空间推理能力

XLA真正的技术突破，藏在一个叫"潜空间推理"（Latent Chain-of-Thought）的架构设计里。

传统的端到端模型在做决策时，需要把感知结果翻译成人类可读的语言进行中间推理，再翻译回机器指令。这个过程存在两层损耗：语言翻译丢失高维信息，中间推理增加决策延迟。

小米XLA的做法是——跳过人类语言，直接用高维向量空间做推理。系统在潜空间里完成"思考"，最终输出驾驶指令的同时，还能生成一条可追溯的推理链。这意味着工程师可以事后检查：XLA在某个路口为什么选择了左转而不是直行？哪一层推理出了偏差？

低时延加上可解释性，这是大多数端到端智驾系统至今未能同时解决的矛盾。英伟达在2025年的技术白皮书中也提到，"可解释性"是端到端智驾从L2+迈向L3的关键瓶颈之一。小米选择用"潜空间"这个更偏学术的概念来回答这个工程难题，某种程度上反映了小米AI实验室的学术基因。

支撑XLA运行的硬件同样激进：新一代SU7搭载英伟达Thor芯片，算力达到700TOPS，是上一代Orin X（84TOPS）的8倍以上。Thor芯片的算力富余为XLA的多任务并行提供了硬件基础——智驾、座舱语音、环境感知、路径规划可以共享同一块芯片的计算资源，避免了多芯片架构之间的通信延迟。

从"听话"到"懂你"

如果把XLA比作小米汽车的大脑，那"超级小爱"就是这张脸。

2026款SU7发布会上，小米展示了小爱同学在车端的几项进化：方言识别从3种扩展到7种，新增了人格腔调模仿能力，声音从合成感变成了带有呼吸和停顿的"蜜糖音色"。

这些听起来像是产品噱头，但背后是小米在手机端积累的真实数据优势。小爱同学在中国拥有庞大的用户基础，每天被唤醒数亿次。多年的手机语音交互数据，直接迁移到了车端。这个数据积累量，是任何一家车企的座舱团队都无法企及的。

更值得关注的是多模态理解能力的突破。2026款SU7支持"可视即可问"功能：用户指着车窗外的一栋建筑问"这是什么"，系统能识别并回答。路过一片不认识的花，拍照就能给出品种和花期。这些场景不是靠预设数据库，而是通过多模态大模型实时理解。和传统座舱的"语音助手+预设指令"模式相比，这是一个质的跨越——从"执行指令"变成了"理解意图"。

车外语音交互是另一个独特场景。小米SU7配备了360度拾音系统，支持车主站在车外用语音控制泊车——"帮我靠左停进那个车位"。系统结合声纹识别确认车主身份（防止陌生人通过语音控制车辆），再调用XLA的感知和规划能力执行泊入。这个场景的巧妙之处在于，它把语音交互从车内延伸到了车外，让车变成了一个可以"听懂指令并执行"的智能体。

此外，超级小爱在座舱内还实现了"上下文记忆"能力。你可以先说"导航去公司"，路上又说"帮我点一杯咖啡"，系统会自动把咖啡送到公司地址附近——它记住了你之前的导航目标作为上下文。这种多轮对话能力在手机端已经是标配，但迁移到车端后，配合位置信息和时间信息，能衍生出更丰富的场景。

VLA和世界模型：两条路都走

2025年的智驾行业有一个激烈的技术路线之争：VLA（视觉-语言-动作）和世界模型，哪个才是终局？

VLA阵营认为，自动驾驶本质是一个"看-理解-行动"的闭环，语言模型提供了常识推理能力，可以直接桥接感知与控制。大语言模型展现出的泛化能力让这个方向备受期待——如果一个模型能理解"行人可能突然加速跑过马路"这种常识，那它理论上也能在驾驶中做出更类人的预判。

世界模型阵营则认为，真正的自动驾驶需要系统"理解"物理世界的运行规律——预测其他车辆的运动轨迹、理解交通流的节奏、预判行人过马路的意图。这种理解不能靠语言常识来替代，而需要通过物理仿真和数据驱动来构建一个内部的"世界表征"。

小米的选择是：不走单一路线，两者融合。

XLA的架构里，世界模型负责构建环境理解和预测能力，VLA提供常识推理和决策泛化，两者通过强化学习机制无缝衔接。雷军在内部技术分享中表达过一个观点："这两种路线不是非此即彼，而是相辅相成。世界模型解决的是'理解世界'，VLA解决的是'做出行动'。缺了任何一个，都不是完整的自动驾驶。"

与特斯拉FSD对比，小米坚持多传感器融合路线（激光雷达+视觉+毫米波雷达），FSD则走纯视觉。两者的训练数据结构也完全不同：FSD积累了海量纯视觉视频数据，优势在于规模和全球覆盖；XLA的1000万Clips则包含多传感器同步信息，优势在于每个数据点的信息密度更高——同一个Clip里，激光雷达提供了精确的三维距离，摄像头提供了颜色和纹理，毫米波雷达补充了速度和穿透能力。

与华为ADS对比，差异更多在商业模式上。华为ADS定位平台化智驾方案，同时服务问界、智界、享界、尊界等多品牌，依靠规模效应摊薄研发成本；小米XLA则完全自研自用，数据闭环不对外开放。两条路线各有利弊：华为靠规模摊薄成本，合作车企越多单位研发成本越低；小米靠闭环加速迭代，数据纯净度更高，迭代速度不受合作方掣肘。

值得注意的是，华为ADS和小米XLA都选择了多传感器融合路线，这说明至少在中国复杂的道路环境下，纯视觉方案的安全性冗余仍然是行业共识。特斯拉坚持纯视觉更多是成本逻辑（省掉一颗激光雷达能降低数千元硬件成本），而非技术路线上的绝对优劣判断。

人车家生态的终极场景

如果只看智驾和座舱，小米XLA和华为ADS、特斯拉FSD的差距并不算悬殊。真正让小米的AI布局与众不同的，是"人车家全生态"——一个能同时串联手机、汽车和智能家居的大模型体系。

小米澎湃OS是这个生态的底层操作系统。2024年底发布的澎湃OS 2.0，集成了Xiaomi HyperAI端云大模型矩阵，在底层打通了HyperCore（性能内核）、HyperConnect（互联引擎）和HyperAI（智能引擎）三大模块。这套架构的设计思路和鸿蒙OS 4.0有相似之处——都是在操作系统层面嵌入AI能力，而非在应用层做AI功能的叠加。

落到具体场景上，有几个值得关注的联动能力：

跨设备记忆。用户在车上听过一首歌，到家后小米音箱会推荐同类型歌单。上周用车载导航去过的咖啡店，手机会自动推荐附近的分店。这些不是简单的数据同步，而是大模型对用户习惯的理解和延续。XLA的世界模型不只理解驾驶环境，也在学习用户的偏好模型——你在什么时间、什么地点、做什么事。这种理解能力，单个设备上的AI是做不到的。

智能家居联动。距离家5公里时，空调自动开启、热水器预热、扫地机器人回充。到达地库后，家中灯光根据时间自动切换至"回家模式"。这些场景在2026款SU7上已经可以实现，通过XLA的场景理解引擎自动触发，不需要用户手动设置自动化规则。和传统IoT的"if-then"自动化不同，XLA能理解"距离家5公里"的语义含义——是正常下班还是临时绕路？是凌晨回家还是晚上八点？根据不同情境做出不同响应。

苹果生态兼容。在小米的用户群里，iPhone用户比例不低。小米通过UWB近场通信实现了iPhone靠近SU7自动解锁车门，灵动岛显示车辆状态，CarPlay无线连接。这不是"拥抱苹果"，而是一个务实的生态策略——大模型的世界模型需要覆盖尽可能多的设备类型，用户的手机是苹果还是小米，不应该影响座舱AI的体验。

雷军曾用"泛机器人"来形容小米汽车的战略定位。在他看来，汽车是小米机器人版图中最大的一个产品形态。XLA认知大模型不只是让车能自己开，更是在为未来的具身智能场景积累核心能力——无论这个"机器人"是四轮的还是两条腿的。从这个角度看，小米投入57.9亿元做XLA，就不只是"为了做好智驾"这么简单了。

大模型的下半场

截至2026年初，小米XLA面临的局面是：智驾能力追赶头部选手的窗口期正在收窄，但"不止于智驾"的差异化路线仍有扩展空间。

有利的一面是数据的飞轮效应。47.3万用户每月贡献的驾驶里程在持续增长，1000万Clips的训练基座会快速膨胀。2025年第四季度，小米推送了新一代XLA端到端架构，进一步提升复杂场景的处理能力。如果用户增长保持当前势头，XLA的训练数据量有望持续扩张，这个增速在行业内相当可观。

超级小爱的手机端迁移也是独特优势。庞大的用户基础每天都在和AI对话，这些交互数据可以直接优化车端的语音和认知能力。在"让AI理解中国用户"这件事上，小米的数据积累可能比大多数车企都深厚。更何况，小米AI实验室在2023年就发布了自研的大语言模型MiLM，在大模型领域的技术储备不比任何一家车企差。

即将上市的YU9（增程SUV）也将搭载XLA认知大模型，这意味着小米的AI能力将从纯电轿车扩展到增程SUV品类。增程车型的高速长途场景更多，能进一步丰富XLA在不同速度区间和路况下的训练数据。

挑战同样存在。智驾端，华为ADS 4.0已经落地城市NOA全国开城，特斯拉FSD也在加速进入中国市场，留给小米XLA追赶到第一梯队的时间不多了。算力端，大模型的能耗问题在车端更为严峻，Thor芯片虽然算力强大，但功耗和散热在车载环境下都是工程难题。如何平衡AI能力和整车能效，是小米需要持续攻克的课题。

但57.9亿只是起跑线上的投入。小米真正想做的事情，不是造一辆"能自己开的车"，而是造一个"能理解世界的移动终端"。XLA认知大模型是这台终端的大脑，超级小爱是它的脸，人车家生态是它的手和脚。

从这个角度看，小米的AI大模型布局确实不止于智驾。智驾只是它向世界证明自己能力的第一张答卷。第二张答卷，可能是一台能理解你回家习惯的汽车，一台能在你开口之前就知道你要去哪的车载AI，一台让"科技普惠"真正落到每个用户日常出行的智能终端。

（雷峰网(公众号：雷峰网)新智驾北京车展2026专题）

专题

小米：2027出海倒计时：中国智造，全球普惠查看更多文章