国内「端到端模型」能围剿特斯拉FSD吗？业内人士：我们技术至少晚了一年

端到端智能驾驶 FSD

2024/03/18 14:28

“我们的原创性技术创新能力比较弱，一般都会跟随国外顶尖厂商的先进技术路线去探索，比如特斯拉。悲观地看，我们比全球最Top的技术进展晚了一年左右。”

智能驾驶算法方案商创始人宋文向新智驾直言。

“不过，端到端这条路线是清晰的，车企与Tier1一定会把现有的模型往端到端方向去做。”

2023年5月初，马斯克在推特上表示，特斯拉将发布FSDV12版本，该版本将采用端到端的AI技术。

这是一种新型的AI模型，采用BEV+Transformer技术架构等方式来实现感知决策一体化，以达到输入原始数据后便能输出最终执行指令的效果。这项技术令该版本比以往减少了数十万代码，让汽车在没有数据连接的情况下仍可在不熟悉的路段地形上行驶。

如今，国内众多车企与Tier1，几乎无人不谈端到端，这也成为车企和Tier1争相杀出重围的一条新路径。

“做端到端，是顺应趋势”

自特斯拉公布FSD V12版本后，一股名为“端到端”热潮席卷国内智驾圈，与此同时，BEV、Transformer、Occupancy占用网络也成为业内热词。

如果把端到端比作高阶智能驾驶要前往的终点，BEV+Transformer更像是旅途中的一座桥梁，也可将其视为一种工具，而Occupancy占用网络则是一种可叠加使用的辅助“武器”。

2023年，特斯拉FSD V12展示了端到端模型上车的效果，这是建立在FSD V11所使用的BEV+Transforemer架构与占用网络的基础上来实现的。

特斯拉快节奏地发布新成果，使得国内主流车企与Tier1意识到这是一个未来趋势，开始快马加鞭地追赶。

在过去，智能驾驶从业者大多将整个自动驾驶任务划分为感知、预测、决策、控制等模块，由于每个模块的技术栈相差很大，且难度高，所以每个工程师都独立负责其中一或两个模块。

因此目前已量产的智驾模型，也大多采用传统模块化的架构，即按照感知、预测等功能来划分成不同的多个小模型，每个模型都要单独对其进行训练和优化，且下游规控环节仍以规则为主。

与传统模块化架构不同的是，端到端模型是由多个小模型（即神经网络）级联而成，并且只需通过训练这一个大模型，就能达到优化和提升各个功能模块的能力，从而减少传统架构下对逐一模块训练所带来的研发成本。

一位算法方案开发工程师说到，“将感知与决策融合到同一个模型中，使得端到端模型能有效避免联级之间的误差值，无需任何人工规则介入，更加接近人类驾驶行为的高阶智驾。”

国内「端到端模型」能围剿特斯拉FSD吗？业内人士：我们技术至少晚了一年

（新智驾整理制图）

技术落地大战爆发前夕，抢先一步的是学术预研。

2023年6月，上海人工智能实验室、武汉大学及商汤科技联合提出的《Planning-oriented Autonomous Driving》（以路径规划为导向的自动驾驶）获得CVPR 最佳论文奖。

论文中， UniAD 框架被首次提出，成为业界首个感知决策一体化的自动驾驶通用模型。

基于此，研究人员将感知、预测和规划等三大类主任务、六小类子任务（目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划）整合到统一的基于 Transformer 的端到端网络框架下，实现全栈关键任务驾驶通用模型。

宋文认为，端到端模型上车，是带领智能驾驶迈向高阶的康庄大道。不管是Tier1还是车企，只要手握海量的有效数据、具备算法研发和工程落地能力，就能率先一步，领先同行。

因此，车企和Tier1们也不甘示弱，都在端到端模型这条跑道上发力冲锋。

2022年10月，极越汽车开始重写智驾系统的算法架构。在算法上，极越的BEV+Transformer架构是基于此前百度阿波罗的纯视觉方案。

2023年12月，理想汽车完成了OTA5.0更新，从发布的 AD Max 3.0 来看，在端到端架构的支持下，理想汽车整合了BEV大模型、MPC模型预测控制以及时空联合规划等能力，还新增了Occupancy占用网络算法。同时，理想还利用自研的神经先验网络NPN（NeuralPriorNet）为BEV打“补丁”。

此外，为了处理复杂的交通红绿灯信息，理想汽车曾表示，其采用信号灯通行意图网络TIN（Traffic Intention Net）来解决，而TIN正是端到端模型。

2023年10月，毫末在AI Day上推出大模型应用，依靠其曾发布的DriveGPT，毫末可通过将图文和文图的交叉特征做匹配，再将其放到大语言模型中，针对形成于特征空间的搜索（query）特征。大模型可在不需做太多准备的情况下，根据场景需求将存量数据进行重新标注。

另据知情人士透露，早在2023年8月，元戎启行就已将端到端模型上车。

正如宋文所透露，“实力强的企业将有望在1-2年内推出端到端模型，慢慢地，供应商与常规企业也会跟进，这是一个可以确定的趋势。”

在各家竞相追逐端到端模型上车之际，业界被反复追问——端到端模型是否会成为高阶智能驾驶的技术终局？

云骥智行高级感知算法工程师兼端到端技术负责人王庭琛向新智驾表示，智能驾驶技术最终的发展方向应是更贴近人类开车的行为模式，至少与人类驾驶行为相似的模块之间具有更强更紧密的关联。

昇启科技创始人兼CEO孙琪传达出与王庭琛相似的观点。

孙琪向新智驾指出，高阶智能驾驶最终的技术架构应是完全端到端的方案，以毫米波雷达、激光雷达等多传感器、多模态的输入，作为端到端的输入端，车辆的控制命令成为输出端，跳过了中间的定位、预测、规划、决策等模块，只有输入和输出这两端，这是将来的技术框架。

商汤绝影智能驾驶高级总监武伟认为，如果多模态的AI Agent能发展得特别充分，达到接近AGI程度的AI agent会是一个终极方案。然而，在到达终局状态之前，使用专用的多模态大模型驱动的高阶智能驾驶软件系统，将会是比较理想的状态。

武伟补充表示，在这种状态里，科研人员可能需要使用海量的多模态数据，以从自监督和半监督中出来一个人类驾驶行为的模型。（端到端模型上车能否到达高阶智驾技术终局，业界仍存各种观点争议，欢迎添加编辑微信lujiepinga交流）

端到端入局者：主机厂VS Tier1

端到端模型赛道上，正在“狂飙”的阵营可分为主机厂与Tier1两大派别，他们分别手握算法与数据两大“武器”。

车企最大的优势在于积累了海量的C端用户数据以及建立超算中心。

以特斯拉为例，特斯拉的“影子模式”随时都在准备数据采集，该模式在采集车内车外动/静态数据时，效率相对更高。而国内华为、小鹏、理想汽等车企均具备数采能力，并联手设立超算中心。

小鹏与阿里云共建了扶摇智算中心，其训练算力为600PFLOPS，理想汽车和火山引擎合作共建了训练中心，算力为1200PFLOPS，蔚来汽车的”智算中心“算力则高达1400PFLOPS。

另外，小鹏汽车的XNGP搭载BEV视觉感知系统XNet和华为的ADS2.0，基本都训练出了可实装上车的车载大模型产品。

武伟表示，“车企的优势在于数据，有些车企配置高阶传感器的车已经在路上行驶，基于这种方式，车企能利用好更多车辆的数据。此外，为了落地一些量产项目，车企采购了大量高精度地图，这对研发端到端算法真值系统起到较大的促进作用。”

除了数据，算力也是车企比Tier1更具优势的方面。

算法方案商工程师叶帆说道，在数据、算力与算法三大要素里，因为算力与资金实力有着紧密联系，算力的实现门槛也许最低。“只要有足够的渠道去购买足够多的算力，用钱就能解决。与资金实力雄厚的车企相比，Tier1的资金实力较弱，所以在算力方面不占优势。”

Tier1的优势点，则或许在算法层面。

昇启科技创始人孙琪表示：“通常来说，主机厂专注于集成类工作，且手握足够大的数据量，Tier1则算法能力更强，因此，未来两个阵营联手起来，Tier1深度绑定主机厂，才能把各自的优势发挥出来。”

事实上，从本质上看，使得两者能互补的原因在于工作模式的不同，而不在于能力的差异。

车企的智能驾驶团队通常服务于自身的量产项目，追求算法的可维护性与稳定性，这种开发模式注重产品的周期性管理和工程化落地，从而使得车企对于算法层面的更新并不敏感，大部分主机厂更倾向于谨慎跟随行业内其他公司的进展。

而Tier1智驾厂商往往采取敏捷开发的原则，更擅长对新体系新架构进行尝试和捕捉，因此在端到端模型上，供应商拥有先发优势和试错经验。

但至于数据方面，王庭琛并不认为现在数据量是拉开车企与Tier1厂商差距的因素，他指出，“当端到端模型进入一个稳定使用的平台期时，才会遇到数据量的瓶颈，但当到那个时期，Tier1的数据闭环和自动标注的链条也将变得更成熟。”

由于目前端到端模式还处于冷启动阶段，因此当下数据的质量比数量更为重要。在一定程度上，算法迭代速度也会成为制约企业竞争力的关键。

武伟以UniAD算法举例表示，他透露道，“在整体冷启动过程中，把数据质量以及模型训练做好，并且能拥有较好的训练方式，这些是关键。区别于BEV+Transformer体系相对较为收敛，端到端模型还处于快速的进化过程中，所以，算法迭代速度可能也会决定其竞争力的高低。”

黎明时刻尚远，终局前夜该如何探索

如AI创业一样，端到端模型走向技术落地，途中注定要经历寒冬与黑夜。多位业内人士均表示，“ 这还需要很长一段时间，短短五到十年内很难实现 ”。

从已公布的案例来看，目前国内针对高阶智驾的端到端模型尚未到达理想状态，这体现在其各个模块还包含着大量的人工先验。

商汤绝影的交通研发总监武伟对新智驾表示，“现在的端到端模型中，还包含了用于做检测任务、地图任务、做预测等不同任务Transformer，并用Query方式进行连接。但人类开车时，并不会先检测再跟踪，继而做地图规划，最后预测这些步骤。”

这些算法模块是人为设计的，然后被开发者采用串联的方式来实现端到端。因此，武伟认为，也许去除掉人工先验的端到端模型，才是最优的方案。

不可否认的是，当下在感知端，小鹏、理想汽车、蔚来等车企都采用BEV+Transformer架构，而在下游规控环节仍使用规则，这使得国内新势力们与特斯拉的端到端方案仍相差不少距离。

这是国内新势力车企们要追赶的方向，更是智驾Tier1厂商的机会。

有业者对新智驾指出，要想更快地突出重围拿到和车厂合作的机会，Tier1必须具备数据闭环能力。

这意味着Tier1必须拥有从数据采集、挖掘、处理、标注、模型训练与优化，最终到模型部署这整个过程的能力。

这就需要Tier1让量产车、采集车在路侧实地采集交通场景，再通过技术手段还原成仿真场景，进入测试环节用于算法测试，进而更新和升级量产车。

数据闭环能力对Tier1来说，最直观的体现是成本端。具体来看，就是可通过利用条件触发的场景采集、云端自动标注以及自动化仿真测试等环节减少大量人工成本。

云骥智行王庭琛告诉新智驾，端到端模型训练需要的样本量以及对于场景丰富度的要求远远大于模块化算法系统，使用传统的人工采集标注数据方式不利于控制成本。

因此，Tier1自研数据闭环系统和云端测试平台能有效降低模型训练支出，更有利于加快对端到端模型的开发与迭代。

数据闭环，只是实现端到端模型落地的技术环节之一。端到端模型要从demo走向量产落地，那还需要经历不断的技术迭代阶段。

以UniAD方案为例，端到端走向量产，需要在任务适配和数据采集方面下“功夫”。

首先，在任务适配上，端到端模型需要适配到现有智能驾驶落地的状态，比如与现在智能驾驶基于行泊一体、城市无图、城区领航辅助等技术方案适配。

如果端到端模型上车，则整个setting（设置）都需要做出改变，如车道保持、定速巡航等功能的实现都需要以某个固定速度或者某个导航目标任务设为前提，作为条件输入。

比如原始的UniAD框架就是一个局部的高阶智能驾驶方案，每一步都会给出一个行驶路线的信息，如加减速、转向等数值指令，但由于这是局部的智能驾驶方案，如果人类司机不给它输入信号并规划路线，它就会一直进行车道保持的智能驾驶。

“而当UniAD方案真正与量产产品适配时，则需增加算法处理模块，以接收和融合更多人类或车机系统的条件信息输入。例如指令变道时的拨杆指令、导航地图的路径规划指向等，定速巡航时的定速目标等。”武伟补充说道。

从这个角度看，当下的UniAD和量产落地的方案相比，两者在问题的设定上存在一定差异，因此，武伟认为，在算法方案上，研发人员需要重新训练该模型。

其次，数据采集方面，端到端模型这一环节非常复杂。

以UniAD为例，武伟透露，从感知、规控再到地图，这三个环节数据采集的结果，整体都要实现匹配，这就对各玩家数据采集真值处理的精度、静态和动态物体的匹配、时间戳与位置的对齐等都提出了很高的要求。

“这整个过程中也存在很多‘坑’，研发人员需要持续去解决，并建立一个数据壁垒。基于海量的数据积累，中间的网络才能适用得更好。”武伟解释道。

因此，从任务设定到数据采集，都是端到端模型在研发过程中需要不断提升的。

这是一个循序渐进的过程。

毫末智行技术总监潘兴提出了一个解决思路，“首先，某些场景条件下，若当前使用的方法在算法或应用层面已取得较好的效果，我们可继续扩大场景范围，或准备更多数据。

尽管在做完这两步工作后依然会遇到新的问题，但可进而再解决问题，直到在新的场景范围内取得更理想的效果，这是长期持续且相互迭代的过程。”（端到端模型部署上车还有哪些新的“解题思路”，欢迎添加作者微信lujiepinga交流）

完全端到端上车，尚需时日

显然，抵达完全的端到端上车，需要漫长的试错时间。

在这期间，端到端模型的发展会经历一些过渡阶段。正如王庭琛向新智驾说道，“由于庞大的网络架构对于低算力芯片及小规模数据集并不友好，采用部分端到端的方案或许是当下折中的架构策略。”

折中的方案，同时还带来了性价比优势，这体现在算力消耗与部署可实现程度上。

王庭琛表示，使用同一个模型来完成目标检测跟踪与轨迹预测，这种绑定了感知和预测模块的方案，反而不会增加更多的算力消耗，且能提升目标轨迹预测精度。

如今不少厂商都在端到端模型做创新的尝试。在2024年CES上，Mobileye创始人Amnon Shashua就传达了Mobileye对端到端模型新的理解及相关方法论。

Amnon Shashua表示，端到端系统可分为两类版本。

第一种是输入图像，输出的是对车辆的控制结果，它仅仅是一个单体引擎或者一个深度网络，它接收图像并输出转向和制动控制指令——这属于完全端到端系统。

而第二种端到端系统则只负责感知。

这两种版本都存在不同的优缺点。

完全端到端系统的问题在于缺乏透明度，我们不知道系统在做决策时到底在做什么。其次，我们没有控制能力。第三点是平均故障间隔时间难以把握。

来看另一个端到端系统版本，它只和感知有关。由于驾驶策略和控制车辆这两部分是人为可干预的，因此人类就把握了透明度和控制能力，但依然会存在一个问题——如何让感知算法堆栈能达到很高的 MTBF（平均故障间隔时间）要求。

针对这个问题，Mobileye提出达到高MTBF的方法是，将端到端系统作为一个包含许多组件的系统当中的一个组件，各个组件互为冗余。

Amnon Shashua还表示，端到端解决方案包括可分解的方案，以及端到端系统方案。

其中可分解方案的优势在于其特别擅长处理边缘场景，而端到端系统方案则有利于提高舒适度，因为它为场景内所有物体创造了一致性，尽管它不擅长边缘场景的处理。

因此，从国内车企与Tier1的现状出发，在缺乏如特斯拉或Waymo那个级别的数据驱动的情况下，在主流架构下逐渐合并内部单元，进行部分端到端模型的部署，或许是更具有性价比的一种尝试。

与此相似的路线，是使用各种各样小的、级联的端到端模型去替换已有的功能模块。通过这种途径，Tier1和车企推动级联的端到端方案逐步进化到完整端到端模型，并实现上车，这成为一种必然趋势。

孙琪向新智驾举了一个例子，“感知、定位、预测、规划、决策、控制等模块都会被拆分为很多小的模块，并把这些小模块变得神经网络化。尽管早期是级联的端到端的神经网络，但能慢慢过渡到最终一体化的端到端网络，以逐步实现端到端模型落地。”

获得解题思路之后，那么，“我们应该如何去评估一套好的端到端模型？”这是目前整个智能驾驶行业内，不管是车企还是Tier1都在试图探索的问题。

王庭琛向新智驾表示，他认为，端到端模型上车最终的评估指标，还是要以闭环仿真为主。

闭环仿真，简单而言，就是在planning规划环节中，端到端模型能规划出一条车行驶轨迹，而这条轨迹会对同个场景里其他车辆的行驶造成影响，该规划结果的好坏，最终会直接影响整个场景里的行驶体验。

结语

纵观智能驾驶行业，降低成本与提升用户体验，成为车企与Tier1追求的长期目标。

端到端模型上车能否降低智驾成本以及上车后的潜力有多大，其核心是未来客户对智驾体验的预期。

不妨从不同场景出发来讨论。

若客户只追求在高速公路上一路向前驾驶，端到端模型上车与如今的智驾方案并不会产生本质的区别。如果客户的预期是在城市复杂路况下驾驶，端到端模型上车能带来安全、更接近人类驾驶的智驾体验，那面向更高阶的智驾功能，未来端到端模型上车所发挥的潜力会更大。

目前，端到端模型训练需要高价的研发成本，包括大量的GPU设备、大规模多层次的数据标注、大算力端侧计算平台等，都给企业带来巨额成本。

端到端模型的优势，则在于其能够为智驾方案带来系统架构层面的提升。

因此，当未来端到端模型在业内实现量产并被广泛使用时，其配套训练和部署的成本也将有望被控制在车企与消费者可接受的范围，从而在提升智驾体验的同时，把降本落到实处。

此时此刻，对于高阶智驾，车企与Tier1都踏上了追求安全、更接近人类驾驶体验的征途。

而如今涌现的端到端模型，更像一条黑夜中新的路线，一种新的解题思路，端到端模型上车有望给用户带来的安全、高阶智驾体验，或成为车企争先抵达的彼岸。

（应受访者要求，宋文为化名。）

雷峰网#雷峰网(公众号：雷峰网)#雷峰网