今天是理想汽车成立8周年的日子,李想在周五发布了全员信,称理想汽车2025年的目标是做到中国豪华品牌第一,销量到一年160万辆。
支撑李想这一判断的不仅是今年上半年以来不断攀升的销量、组织变革的结果,还有理想汽车在自动驾驶方面超乎预期的进展。
家庭科技日上,理想汽车不仅发布了智能空间的MindGPT,还公布了智能驾驶的新进展。理想称会在年底多个城市开放不依赖于高精地图的城市NOA,以及推出不挑路段的通勤NOA。
关于这次理想汽车的城市NOA,核心的逻辑是通过和清华研发的神经网络NPN、自研的TIN信号灯识别网络以及Occupancy(占用网络)去弥补原有BEV算法识别的局限。不过,理想汽车和清华只合作了NPN网络,对方提供理想研究和小范围的实验数据,有关很多工程化部分都是由理想汽车自己的团队去进行落地。
雷峰网体验了早鸟测试版的城市NOA,总体体验超乎预期,除了出现1次在施工道路的人为接管、1次树影误识别以及在道路中心归控偏保守之外,其他的操作都很流畅,尤其是路口信号灯的识别以及对周边车辆的预测上,识别都很精准。
在高精地图还没有变成自动驾驶瓶颈之前,市面上做自动驾驶的路线大概可以分为三种:1)以特斯拉为代表的纯视觉、强感知的路线;2)科技公司:视觉+高精地图;3)视觉+激光雷达。
以前理想汽车选择的是利用高精地图+规则的方式去做自动驾驶,高精地图精度、数据维度都比较高,能给自动驾驶提供的信息很丰富;作为辅助作用的规则也可以在限定场景下很好地去解决场景内可能存在的情况。
基于高精地图的这套自动驾驶方案,优点是能在短时间内比较快地做到一套基本可用的城市NOA功能,但是这种做法并不可持续。
暂且先不提制作成本高、更新频率低、人力耗费巨大、高精地图资质收紧(只有拿到甲级测绘资质的厂家才能进行自动驾驶数据采集)等这些客观层面的因素,采用高精地图做自动驾驶方案的厂商,在扩大城市NOA覆盖范围时会遇到很大的难关。
国内的城市里程包括一级、二级的乡道、省道、国道基本上能达到1000万公里,按照高精地图的思路,从一、二线城市扩大到三、四线及以下的城市用户都能用得上的话,需要一个城市接着一个城市做路测。
传统高精地图路测的过程是用搭载一系列高精度传感器的数据采集车在城市里来回开,把收集来的点云数据用Slam的做法做数据的拼接和配置,配置结束后会得到一份高精度的点云地图,点云地图并不能直接用来做自动驾驶,还需要一个人类地图标注员把地图上的每一个元素进行人工标注。
理想汽车自动驾驶研发负责人郎咸朋在接受采访时说,“如果有一张高精地图,覆盖了中国所有的道路,每分钟就能更新一次,而且还很便宜,1块钱就能用一天,我肯定会非常赞同使用高精地图。”
由于高精地图的局限性,理想汽车也加入了“去高精度地图”的大潮。
目前理想所采用的算法路线,简单来说,也是和特斯拉一样,即基于Transformer的BEV算法,再加上Occupancy(占用网络)去解决感知问题。
BEV算法分为静态BEV和动态BEV算法。静态BEV感知的是物理世界里相对静态、变化不大的车道线和道路结构;而动态BEV感知的便是道路上不断变化的交通参与者,例如人、骑车人,车等物体。
但是静态BEV算法在复杂路口的实时感知状态由于目标很多、传感器的视野容易被遮挡,导致车端的感知结果会丢失一部分局部信息而不稳定,抖动会比较严重,这样一来会影响到车辆在复杂路口的误判。
为了补足静态BEV的感知不足,理想汽车和清华大学一起研发了NPN神经先验网络(Neural Prior Net),这一网络处理的就是超出感知范围或者视野被遮挡的复杂路口,它提取的道路参数的结果,并不是给人看的,而是给后台的AI司机看的。
NPN对BEV算法具体补充的过程是,利用大量用户车队在复杂路口的多次历史轨迹,提取他们在该路口所做的行为特征,形成特征库,保存在云端和车端。同时车端和云端之间可以相互更新,云端的特征库会跟车端进行实时的融合,以此还原出更好的展示结果。
值得一提的是,NPN提取的道路特征对人来说并不可视(即人没法看懂图上的这些东西分别代表了什么),只识别车周围的高精地图,而非整个城市的高精度地图,所以也不涉及地理采集、地理信息等数据安全的问题。(不过新智驾获悉,目前理想汽车内部也在积极推动资质问题的落地。)
除了静态的车道线、道路结构,以及不断变化的交通参与者之外,还有一些“通用障碍物”,即那些不需要区分类型但仍然需要避让的元素。为了解决这类非标物体的感知,理想汽车采用的是用Occupancy网络去还原障碍物的物理面积,来达到避让的作用。
但是解决了道路信息的感知之后,还需要解决信号灯的识别。
识别信号灯的红绿、位置并不难,难的是去找到信号灯和道路的匹配关系,即车灯到底对应哪个车道。
以前在依赖高精地图的时候,地图给出足够详细的匹配度之后,驾驶员只需要通过视觉方法去识别自己行驶道路上应该对应哪个车道即可。
但是如果道路出现临时情况,比如施工等,高精地图没有及时更新的话,依靠高精地图的自动驾驶的感知就会出现问题。
对此,理想汽车采用了TIN信号灯意图网络去解决这一问题,即利用NPN特征提取大量人类司机在路口对于信号灯的行为特征,再去告诉车辆应该怎么走。
一句话总结,目前理想汽车的自动驾驶路径是:
自动驾驶的算法依然是基于Transformer大模型的BEV感知算法,只不过现在这套算法更先进了。理想汽车的做法是,用NPN网络去规避掉静态BEV算法在复杂路口的不稳定性,用TIN网络解决信号灯与道路的匹配关系,用Occupancy去识别道路上的非标且需要避让的物体(动态BEV可以识别标准物体)。
在车端训练了模型并不代表可以直接将自动驾驶直接落地到某一个城市。
在一个城市做自动驾驶算法的落地,必须要经过测试和验证,以保证产品、系统的功能安全和稳定。
一般来说,验证有两种方式,一种是靠路测,另一种便是特斯拉提出的“影子模式”。
影子模式,简单说,就是通过捕捉、收集每一个用户车在实际驾驶过程中遇到的路况信息,将相关数据回传以进行算法训练。
这个模式的好处就在于,量产车就等于是数据采集车,上路的车辆都可以进行模型测试和数据采集,一来既可以在短时间内积累海量的自动驾驶行驶里程数据,二来也可以让自动驾驶模型学习到真实人类的驾驶行为习惯。
今年上海车展,理想汽车发布双能战略的同时,称会在年底在100个城市落地理想的辅助驾驶。业内人士此前对这一目标并不抱有希望,说“落地100城,连路测都做不完。”
雷峰网请教了理想汽车自动驾驶产品总监赵哲伦,对方称“本质上还是研发体系的问题,如果所有落地都得靠路测,不能去做影子模式的验证,算法训练过程如果还有很多人工标注的部分,效率会慢很多。”
理想汽车落地城市NOA的做法是少量的路测加上大量的影子模式。
对于神经网络算法来说,数据就是它的养料,“影子模式”为它提供了源源不断的养料,去帮助其不断成长与成熟。影子模式要发挥最大的作用,核心在于得发掘、回收数据的价值,即高效、快速正在海量数据中有效的调取标准化数据。
在数据使用上,有两个维度的能力十分重要,一是数据闭环,没有闭环,自动驾驶数据的有效性就无法得到验证。二是在数据闭环的基础上,需要实现数据的高效挖掘和运转。
理想内部在获取数据、处理数据以及应用数据有一套完整的流程,内部叫做数据闭环系统,或者说数据驱动系统。
赵哲伦告诉雷峰网,这一套系统在验证影子模式的完整过程是:首先得自动挖掘有用的数据,其次便是自动化的标注、自动化的训练,再到自动化验证,闭环验证通过之后才会OTA到车上。
这一数据闭环系统的优点是能通过自动化的方式去让平台不断进化。
有了数据闭环系统还不够,还需要有大量的用户数据。此前雷峰网(公众号:雷峰网)层报道过,郎咸朋在赴美宣讲时提到,衡量自动驾驶有3个维度——算法、算力和数据,最后拉开差距的是数据量。
算法大家基本上follow特斯拉的路线,算力上的差距也不大,已经公开的有小鹏(600 PFLOPS)、吉利(810 PFLOPS)、毫末智行(670 PFLOPS),理想在家庭科技日上公布了目前算力在1200 PFLOPS。
在前三个要素都拉不开差距的情况下,数据将成为关键,而这是理想的优势。6月即将进入尾声,理想三周的销量已经达2.73万辆,远超蔚来(0.8万辆)、小鹏(0.64万辆)。
车卖得多,自动驾驶也不收服务费,每一辆卖出去的在路上的跑的理想汽车,都在给理想训练自己的自动驾驶收集足够多的数据。
事实上,理想汽车在推出现阶段的城市NOA之前,上半年才把和清华一起合作的研究方案落地,实际测试也只花了3个月。
正是因为有了完整的数据闭环训练系统以及大量的用户数据,才能让赵哲伦在回答新智驾的疑问时有这样的底气,“3个月的测试时间并不短。”
行业里,新势力的自动驾驶研发之路,理想研发要比蔚来、小鹏研发都要晚,朗咸朋在家庭科技日上说,“今年相信大家会对理想汽车的自动驾驶产生改观。”
在理想汽车自动驾驶产品总监赵哲伦看来,后发并不等于落后,后发有后发的优势,“拿AD(自动驾驶)来举例子,当AD本身的整体架构性还没有那么成熟的时候,这个时候做大量的投入会被浪费掉。后发因为找对了方向,可以省去大部分探索的时间。”
这点可以从另一个侧面得到印证。
特斯拉是自动驾驶研发的前驱,在发现算法并不能达到理想结果的时候,自己重写了一遍算法。在特斯拉之后,包括小鹏、理想和蔚来在内的车企以及华为等自动驾驶方案提供商,都对自己的算法架构进行了重写,且都采用了特斯拉Transformer+BEV+Occupancy的算法路径。且由于后发优势,蔚小理三家架构重写的时间都要比特斯拉短。
不过,理想汽车自研的TIN信号灯网络也有一定的风险。
传统的感知算法是用数学的方法去做,采用的是一种叫做卡尔曼滤波的融合算法,就是这种算法把卫星送上了天、完成了火箭的发射,是一种比较稳定、可靠的算法。它的弊端就在于,如果事物不符合高斯分布(所有带有误差的东西就是带有随机性的东西,产生的误差都是一条弧线,而且这个弧线是对称的),它就会失效,表现在自动驾驶上,就会出现非常多的corner case(小概率事件)。
人类寄希望于大模型去解决所有的corner case,但大模型也有弊端。作为一种端到端的大模型,TIN信号网络也不例外。
人工智能有典型的三层架构,即输入层、输出层和中间层,几十年前因为算力不足,中间层只能构建一到两层;而现在中间层已经发展成为无数层级。深度学习的方法是给输入层喂海量的数据,同时给输出层去喂正确的答案,中间层不断调整参数,以使得输出结果和正确答案无数接近。
一位自动驾驶专家告诉雷峰网,“端到端的模型本身是一个无法解释的黑盒子,模型内部怎么运作的人并不知道,只有通过不停地给它喂数据,寄希望于有一天模型成长得比卡尔曼滤波(传统的感知算法)更强。”
而理想汽车这里提到的TIN网络,它不仅涉及感知(感知到路口信号灯的变化),也涉及规控(根据实时感知到的情况告诉车辆往哪走),但因为它是端到端的大模型,无法保证对未知的物体一定适用,也无法保证对某一个具体的问题做定向的修正。黑盒的整个决策过程不可推导也不可细分,一旦出现问题,研发人员并不能找出问题的存在。
在《当我们在谈论端到端自动驾驶时,我们在谈论什么?》一文中有提到一般情况下辅助驾驶出现bug的改进过程:
假设出现了一次误刹,经典的自动驾驶技术栈会分析:刹车指令的来源,是前方动态障碍物还是静态物体?或者是规划模块的速度规划出现了问题?或者是在控制模块在输出正确的情况下,控制指令出现了问题?
分析之后,就会对具体出现问题的部分进行定向优化。
但是端到端的模型就只能通过喂大量的数据,帮助它更好地做出符合目标的决策,找不到是在哪个环节上进行优化改进以及具体应该提供哪些数据进行定向优化。
不过,依然不能否认理想汽车在这件事情上的开辟作用。拿着刚研发的结果去落地,不确定性很强,不少人会觉得理想汽车的做法很激进。
一位业内人士告诉雷峰网,选择把学术上一些前沿的技术方案进行工程化落地,本身就需要勇气。理想的做法很像特斯拉,“特斯拉最牛的一点就是能用最快的速度把学术研究成果进行工业化验证和落地,让其价值发挥出来,即使最后代价会比较大。”
相关文章:
独家丨理想硅谷宣讲会实录:范皓宇、张骁、郎咸朋、勾晓菲都讲了啥?
独家|理想汽车规划提升常州工厂产能,原重庆基地投产计划已停止