2025年3月,小米汽车发布了一组让行业意外的数据:XLA认知大模型研发投入已达57.9亿元,团队规模超过1800人,测试车队超过400台。
这个投入规模放在全行业是什么概念?小米作为一个2024年3月才交付第一辆车的品牌,在智驾AI上的资源投入已经跻身行业第一梯队。
更让人意外的是,这组数据不只服务于智驾。在小米的AI版图里,驾驶只是一条支线——座舱里的超级小爱、手机上的海量用户、家里的智能空调和扫地机器人,都站在同一条大模型底座之上。
这就是小米和其他车企最大的不同。华为ADS专注把驾驶做到极致,特斯拉FSD把纯视觉路线走到黑,而小米的XLA从一开始就不是"智驾大模型"——它是一个认知大模型,碰巧也能开车。
2025年7月,小米向用户推送了基于1000万个Clips训练的新版XLA。所谓Clip,是小米对训练数据的基本单元定义:每段约30秒的多传感器同步记录,融合激光雷达点云、摄像头图像、毫米波雷达信号、导航路径和车外声音。1000万Clips,意味着超过8300小时的真实道路驾驶场景,全部来自中国路况。
8300个小时是什么概念?一个全职网约车司机一年的运营时长大约在2500到3000小时之间。也就是说,XLA的训练数据量相当于近3个司机连续不断地开了三年车,而且这些数据不是来自单个城市,而是覆盖了中国各地的高速公路、城市快速路、城中村窄路、环岛路口等各种场景。
截至2025年11月,小米汽车辅助驾驶用户达47.3万人,累计辅助驾驶里程突破3亿公里,避免可能的碰撞累计45.7万次,泊车辅助累计使用3096.4万次。辅助驾驶功能活跃占比达90%。
这个数据增长速度在行业内相当可观。更重要的是,这3亿公里全部来自小米自研系统的真实用户数据,数据闭环的纯净度远高于采购第三方方案的车企。
XLA真正的技术突破,藏在一个叫"潜空间推理"(Latent Chain-of-Thought)的架构设计里。
传统的端到端模型在做决策时,需要把感知结果翻译成人类可读的语言进行中间推理,再翻译回机器指令。这个过程存在两层损耗:语言翻译丢失高维信息,中间推理增加决策延迟。
小米XLA的做法是——跳过人类语言,直接用高维向量空间做推理。系统在潜空间里完成"思考",最终输出驾驶指令的同时,还能生成一条可追溯的推理链。这意味着工程师可以事后检查:XLA在某个路口为什么选择了左转而不是直行?哪一层推理出了偏差?
低时延加上可解释性,这是大多数端到端智驾系统至今未能同时解决的矛盾。英伟达在2025年的技术白皮书中也提到,"可解释性"是端到端智驾从L2+迈向L3的关键瓶颈之一。小米选择用"潜空间"这个更偏学术的概念来回答这个工程难题,某种程度上反映了小米AI实验室的学术基因。
支撑XLA运行的硬件同样激进:新一代SU7搭载英伟达Thor芯片,算力达到700TOPS,是上一代Orin X(84TOPS)的8倍以上。Thor芯片的算力富余为XLA的多任务并行提供了硬件基础——智驾、座舱语音、环境感知、路径规划可以共享同一块芯片的计算资源,避免了多芯片架构之间的通信延迟。
如果把XLA比作小米汽车的大脑,那"超级小爱"就是这张脸。
2026款SU7发布会上,小米展示了小爱同学在车端的几项进化:方言识别从3种扩展到7种,新增了人格腔调模仿能力,声音从合成感变成了带有呼吸和停顿的"蜜糖音色"。
这些听起来像是产品噱头,但背后是小米在手机端积累的真实数据优势。小爱同学在中国拥有庞大的用户基础,每天被唤醒数亿次。多年的手机语音交互数据,直接迁移到了车端。这个数据积累量,是任何一家车企的座舱团队都无法企及的。
更值得关注的是多模态理解能力的突破。2026款SU7支持"可视即可问"功能:用户指着车窗外的一栋建筑问"这是什么",系统能识别并回答。路过一片不认识的花,拍照就能给出品种和花期。这些场景不是靠预设数据库,而是通过多模态大模型实时理解。和传统座舱的"语音助手+预设指令"模式相比,这是一个质的跨越——从"执行指令"变成了"理解意图"。
车外语音交互是另一个独特场景。小米SU7配备了360度拾音系统,支持车主站在车外用语音控制泊车——"帮我靠左停进那个车位"。系统结合声纹识别确认车主身份(防止陌生人通过语音控制车辆),再调用XLA的感知和规划能力执行泊入。这个场景的巧妙之处在于,它把语音交互从车内延伸到了车外,让车变成了一个可以"听懂指令并执行"的智能体。
此外,超级小爱在座舱内还实现了"上下文记忆"能力。你可以先说"导航去公司",路上又说"帮我点一杯咖啡",系统会自动把咖啡送到公司地址附近——它记住了你之前的导航目标作为上下文。这种多轮对话能力在手机端已经是标配,但迁移到车端后,配合位置信息和时间信息,能衍生出更丰富的场景。
2025年的智驾行业有一个激烈的技术路线之争:VLA(视觉-语言-动作)和世界模型,哪个才是终局?
VLA阵营认为,自动驾驶本质是一个"看-理解-行动"的闭环,语言模型提供了常识推理能力,可以直接桥接感知与控制。大语言模型展现出的泛化能力让这个方向备受期待——如果一个模型能理解"行人可能突然加速跑过马路"这种常识,那它理论上也能在驾驶中做出更类人的预判。
世界模型阵营则认为,真正的自动驾驶需要系统"理解"物理世界的运行规律——预测其他车辆的运动轨迹、理解交通流的节奏、预判行人过马路的意图。这种理解不能靠语言常识来替代,而需要通过物理仿真和数据驱动来构建一个内部的"世界表征"。
小米的选择是:不走单一路线,两者融合。
XLA的架构里,世界模型负责构建环境理解和预测能力,VLA提供常识推理和决策泛化,两者通过强化学习机制无缝衔接。雷军在内部技术分享中表达过一个观点:"这两种路线不是非此即彼,而是相辅相成。世界模型解决的是'理解世界',VLA解决的是'做出行动'。缺了任何一个,都不是完整的自动驾驶。"
与特斯拉FSD对比,小米坚持多传感器融合路线(激光雷达+视觉+毫米波雷达),FSD则走纯视觉。两者的训练数据结构也完全不同:FSD积累了海量纯视觉视频数据,优势在于规模和全球覆盖;XLA的1000万Clips则包含多传感器同步信息,优势在于每个数据点的信息密度更高——同一个Clip里,激光雷达提供了精确的三维距离,摄像头提供了颜色和纹理,毫米波雷达补充了速度和穿透能力。
与华为ADS对比,差异更多在商业模式上。华为ADS定位平台化智驾方案,同时服务问界、智界、享界、尊界等多品牌,依靠规模效应摊薄研发成本;小米XLA则完全自研自用,数据闭环不对外开放。两条路线各有利弊:华为靠规模摊薄成本,合作车企越多单位研发成本越低;小米靠闭环加速迭代,数据纯净度更高,迭代速度不受合作方掣肘。
值得注意的是,华为ADS和小米XLA都选择了多传感器融合路线,这说明至少在中国复杂的道路环境下,纯视觉方案的安全性冗余仍然是行业共识。特斯拉坚持纯视觉更多是成本逻辑(省掉一颗激光雷达能降低数千元硬件成本),而非技术路线上的绝对优劣判断。
如果只看智驾和座舱,小米XLA和华为ADS、特斯拉FSD的差距并不算悬殊。真正让小米的AI布局与众不同的,是"人车家全生态"——一个能同时串联手机、汽车和智能家居的大模型体系。
小米澎湃OS是这个生态的底层操作系统。2024年底发布的澎湃OS 2.0,集成了Xiaomi HyperAI端云大模型矩阵,在底层打通了HyperCore(性能内核)、HyperConnect(互联引擎)和HyperAI(智能引擎)三大模块。这套架构的设计思路和鸿蒙OS 4.0有相似之处——都是在操作系统层面嵌入AI能力,而非在应用层做AI功能的叠加。
落到具体场景上,有几个值得关注的联动能力:
跨设备记忆。用户在车上听过一首歌,到家后小米音箱会推荐同类型歌单。上周用车载导航去过的咖啡店,手机会自动推荐附近的分店。这些不是简单的数据同步,而是大模型对用户习惯的理解和延续。XLA的世界模型不只理解驾驶环境,也在学习用户的偏好模型——你在什么时间、什么地点、做什么事。这种理解能力,单个设备上的AI是做不到的。
智能家居联动。距离家5公里时,空调自动开启、热水器预热、扫地机器人回充。到达地库后,家中灯光根据时间自动切换至"回家模式"。这些场景在2026款SU7上已经可以实现,通过XLA的场景理解引擎自动触发,不需要用户手动设置自动化规则。和传统IoT的"if-then"自动化不同,XLA能理解"距离家5公里"的语义含义——是正常下班还是临时绕路?是凌晨回家还是晚上八点?根据不同情境做出不同响应。
苹果生态兼容。在小米的用户群里,iPhone用户比例不低。小米通过UWB近场通信实现了iPhone靠近SU7自动解锁车门,灵动岛显示车辆状态,CarPlay无线连接。这不是"拥抱苹果",而是一个务实的生态策略——大模型的世界模型需要覆盖尽可能多的设备类型,用户的手机是苹果还是小米,不应该影响座舱AI的体验。
雷军曾用"泛机器人"来形容小米汽车的战略定位。在他看来,汽车是小米机器人版图中最大的一个产品形态。XLA认知大模型不只是让车能自己开,更是在为未来的具身智能场景积累核心能力——无论这个"机器人"是四轮的还是两条腿的。从这个角度看,小米投入57.9亿元做XLA,就不只是"为了做好智驾"这么简单了。
截至2026年初,小米XLA面临的局面是:智驾能力追赶头部选手的窗口期正在收窄,但"不止于智驾"的差异化路线仍有扩展空间。
有利的一面是数据的飞轮效应。47.3万用户每月贡献的驾驶里程在持续增长,1000万Clips的训练基座会快速膨胀。2025年第四季度,小米推送了新一代XLA端到端架构,进一步提升复杂场景的处理能力。如果用户增长保持当前势头,XLA的训练数据量有望持续扩张,这个增速在行业内相当可观。
超级小爱的手机端迁移也是独特优势。庞大的用户基础每天都在和AI对话,这些交互数据可以直接优化车端的语音和认知能力。在"让AI理解中国用户"这件事上,小米的数据积累可能比大多数车企都深厚。更何况,小米AI实验室在2023年就发布了自研的大语言模型MiLM,在大模型领域的技术储备不比任何一家车企差。
即将上市的YU9(增程SUV)也将搭载XLA认知大模型,这意味着小米的AI能力将从纯电轿车扩展到增程SUV品类。增程车型的高速长途场景更多,能进一步丰富XLA在不同速度区间和路况下的训练数据。
挑战同样存在。智驾端,华为ADS 4.0已经落地城市NOA全国开城,特斯拉FSD也在加速进入中国市场,留给小米XLA追赶到第一梯队的时间不多了。算力端,大模型的能耗问题在车端更为严峻,Thor芯片虽然算力强大,但功耗和散热在车载环境下都是工程难题。如何平衡AI能力和整车能效,是小米需要持续攻克的课题。
但57.9亿只是起跑线上的投入。小米真正想做的事情,不是造一辆"能自己开的车",而是造一个"能理解世界的移动终端"。XLA认知大模型是这台终端的大脑,超级小爱是它的脸,人车家生态是它的手和脚。
从这个角度看,小米的AI大模型布局确实不止于智驾。智驾只是它向世界证明自己能力的第一张答卷。第二张答卷,可能是一台能理解你回家习惯的汽车,一台能在你开口之前就知道你要去哪的车载AI,一台让"科技普惠"真正落到每个用户日常出行的智能终端。
(雷峰网(公众号:雷峰网)新智驾北京车展2026专题)