今年年初,FSD推送了V12.3版本,标志着特斯拉的纯视觉自动驾驶系统进入了一个新的阶段。
4月28日马斯克访华,在不到24小时的时间里,特斯拉中国先后两次在官方微博发声,均提及加速自动驾驶技术落地。这在智驾圈和车企圈内再次掀起一轮讨论——智能化,仍然是当下最热门的话题之一。
国内,从一开始就走纯视觉路线的一个车企玩家是极越。
在2024北京车展上,极越汽车旗下的第二款车型——极越07首发亮相,并将于下半年正式上市。
智能化是极越一直想要传达给外界的形象。近日,极越发布2024五一假期AI出行报告,数据统计时间为4月30日至5月5日。极越的智驾渗透率达78.8%,单车平均 PPA 里程为181.6公里;自动泊车功能渗透率达73.1%,单车单日自动泊车最多达20次。
车展期间,雷峰网(公众号:雷峰网)参加了极越汽车高层群访,与极越智能软件副总裁潘云鹏展开交流。
潘云鹏表示,“我们现在是全中国唯一,全世界唯二纯视觉高阶辅助驾驶的方案。”
与在车展之前英伟达吴新宙所分享的类似观点,潘云鹏也强调了“软件定义汽车”以及“AI定义汽车”的区别:前者成功的要素是SOA软硬解耦、高算力SOC,以及软硬件背后所带来的组织架构的优化;后者则是需要高质量数据、大算力、大参数模型,靠的就是Scaling Laws(大力出奇迹)。
极越把自己的汽车定位成“汽车机器人”,这个汽车机器人具备三大基础能力:自然交流、自由移动、自我成长。其中,在自由移动层面,主要包括两个部分:行泊一体以及纯视觉。
极越一开始所投入的纯视觉智驾路线,已经成为行业主流,很多厂商推出了没有激光雷达的方案。
2023年,小鹏和蔚来分别宣布各自的第二品牌——MONA和乐道,明确采用纯视觉路线。今年4月新发布的智界S7,个别车型也取消激光雷达,用视觉直接实现全国高速和城市快速路智驾领航辅助和智能泊车。
极越技术架构
广汽集团也正式推出了无图纯视觉智能驾驶技术,目前在广州核心城区的高速、城市NOA功能已经基本实现无图纯视觉。
潘云鹏表示,在极越01的开发阶段,是保留了激光雷达的,在保险杠灯下面的位置。后来,极越决定要去掉激光雷达,主要有几个方面的原因:
第一,从人类驾驶的模式来看,头上没顶一个主动光传感器,还是通过视觉,人脑手脚配合形成一个动作。车上的摄像头包括毫米波雷达的覆盖范围比人类广,完全可以替代掉额外的激光雷达,完成驾驶的动作。
第二,激光雷达的成本问题,即便成本下降很快,但比起摄像头还是有很大差别,BOM成本是摄像头的5-10倍。售后维修成本高。
第三,当激光雷达给的结果和其它感知的结果不一致时,难以仲裁。而且激光得满足光学基本的物理属性,在一些有金属表面反射比较强的场景之下,必须得消除伪影和鬼影,这些东西的长尾效应比较明显,需要导入大量的成本。
第四,激光雷达的布置,现在车企基本都是把激光雷达放在车顶,这个对设计提出挑战。
在背靠百度智驾能力、积累了一亿公里数据以后,极越在2023年决定彻底舍弃激光雷达。当然,纯视觉方案的挑战也很明显:深度信息的天然缺失,需要花费大量精力进行数据的升维,从2D到3D进行转换。
潘云鹏在2023年的时候判断,2024年是一个拐点。“从去年10月27号发布这款车1.1版本,到现在的1.4版本,以及即将推出的1.5版本,每一个版本都会发现它的视觉性能,包括智驾的体验都极大提升,这也印证了我们当年对视觉路线的判断,一旦拐点到来之后,它的迭代周期频率更敏捷。”
潘云鹏表示,“(智能驾驶)这个行业里观点越来越类似,有几个关键词,一个是去图化,一个是激光雷达,还有一个端到端。做纯视觉方案时,大家会聊激光雷达会聊成本和可靠性,我们纯视觉把售后成本压低,但是研发成本是提高的,对数据量提升,对算力的要求越来越大,总体而言,一定是每家公司根据自己的特点选择的最合适的路线。
纯视觉的上限高,但是下限也低,一切取决于数据和算力的支撑。
比如,特斯拉今年1月刚刚追加了5亿美元新投资,购买约1万个英伟达H100 GPU,用于自动驾驶的训练。有数据显示,特斯拉拥有H100 GPU的数量可能超过3万个。
抵达北京的那天,马斯克就说,今年特斯拉将会投资约100亿美元用于AI的训练和推理,而推理主要用于汽车。而任何支出达不到每年100亿美元水平或者无法高效部署的公司,都无法在市场上竞争。
极越的视觉大模型,包含了四大基础能力:
第一,把之前的智驾小模型汇集成更大的大模型。原先每个功能都有自己的感知模型、控制模型,预测模型。极越01上对这些模型做了重构,有一个比较大的基础模型。这个基础模型具备几个能力,一,具备在线绘图的能力,是帮助极越去泛化、开城,主要是应对地图数据不完善、不准确的场景,可以做一些实时线图,这是为什么极越可以很快开放全国的原因之一。
第二,目标监测和持续跟踪,对行人的目标轨迹,行人识别,可以做到持续的追踪,持续的预测,让车有一些预处理的能力,而不是变成“鬼探头”的场景。
第三,OCC的占用网络。不需要对障碍物进行识别,直接看到在目前的行驶区域或者行驶路径被遮挡后绕开,极大的提升障碍物检测和安全性能。
今年1月,在极越预告的V1.3版本OTA中,加入OCC占用网络的“BEV+OCC+Transformer”智能驾驶方案,被正式命名为“B.O.T三向箔”。
相较于目前市场主流的“BEV+ Transformer”方案,OCC技术为整车智驾带来的最大变化是感知识别能力的提升,能够对障碍物进行3D精细刻画,模型精度可达厘米级,比肩甚至超越激光雷达。
最后是场景理解,基于所有基础能力的加持,可以对每帧视频的数据做出最准确的判断,跟看图说话类似,可以帮助智驾在预测和沟通的过程中,做出更好的判断。
潘云鹏表示,“在合并一些模型之后,发现它的性能有很大的提升,算力要求在减小,因为我们之前小模型的数量比较多,而且得益于数据训练之后,所有的行车和泊车场景都有收益,这也是感知和基础的大模型带来自动驾驶泛化能力和性能提升的例子。”
据雷峰网了解,PPA开通之后的日均渗透率在50%,极越将会在5月中旬发布1.5版本。
在开城计划上,今年极越的PPA功能将实现全国都能开。具体来讲,将先开放一百个城市,主要是用户最多的一些地方,在未来的一到两个月逐步开放到300至360城的范围,到2024年,所有的乡间道路都能开。
具体的车辆功能上,自动转向灯和屏幕换挡也用到纯视觉的能力。
1.4版本的时候,极越通过车的角度判断是否有变道的意图,从而控制转向灯以及屏幕换挡。潘云鹏表示,极越很快还有自动换挡的功能,通过视觉的能力,知道车主想前进还是后退,对视觉的范畴进行进一步丰富
2024北京车展上,我们能看到,许多车企在智能化上持续发力,技术的演变节奏不断加快。
潘云鹏表示,“技术越有多样性,对用户来讲是个好事,最后还是用户体验来说话,用数据来说话。最终应该是百花齐放,纯视觉、非纯视觉、5颗激光雷达,8颗激光雷达,这都不重要,只要用户的成本是可接受的,体验是安全舒心的,这都是挺好的。”雷峰网