“国内首个端到端上车。”
5月20日,小鹏汽车的AI DAY上,何小鹏宣布端到端大模型上车,即日起面向用户全量推送AI天玑系统,覆盖所有在售车型。
在特斯拉FSD V12推送后,国内智驾界就为“端到端”争得沸沸扬扬。而小鹏的此次发布,也如一枚深水炸弹,再次点燃了“端到端”的热度。
根据发布,小鹏的端到端大模型由三部分组成,分别是神经网络XNet,规控大模型XPlanner和大语言模型XBrain。
XNet可模拟人类感知,使自动驾驶系统感知范围提升2倍,XPlanner可使机器的驾驶策略不断拟人化,做到前后顿挫减少50%、违停卡死减少40%、安全接管减少60%。XBrain则能让自动驾驶系统拥有与人类大脑一样的理解学习能力,能认识待转区、潮汐车道、特殊车道、路牌文字等。
同时,何小鹏也表示,小鹏的端到端大模型未来能实现2天一次迭代,未来18个月智驾能力提升30倍。
此前,小鹏的自动驾驶系统具有约10万+行代码,但一个无限接近人类司机的自动驾驶系统约需要10亿行代码,以人力编写规则,几乎是不可能完成的任务。而改用端到端大模型后,系统将能实现几乎无上限的规则。
何小鹏表示,此前,小鹏认为还要许多年才能实现无人驾驶,但今天,在端到端大模型上车测试后,小鹏认为机会就在不远的将来,也许数年内就能看到更强力的无人驾驶,甚至是全无人驾驶的到来。
除了端到端大模型,AI天玑系统也包含了AI小P、AI司机和AI保镖三大功能。
AI小P相当于是大语言模型加持的语音助理小P,具备更高级别的理解能力和需求推理能力。AI司机可实现AI代驾和AI泊车功能。
此外,何小鹏也透露,小鹏汽车第二品牌MONA系列的首款车型也将于今年6月亮相。
发布会后,雷峰网(公众号:雷峰网)参加了何小鹏与小鹏自动驾驶负责人李立耘的访谈,就小鹏自动驾驶规划、端到端以及大模型等内容进行了交流。以下为本次交流内容,雷峰网进行了不改变原意的编辑和整理
Q:如何看待特斯拉将重心放在了自动驾驶?小鹏的自动驾驶研发是否会加大?
何小鹏:他们的动作很难评价,是不一样的路线。大模型对于自动驾驶是颠覆性的变革,而不是比例上的变化。我今天专门提出下一代新的自动驾驶,相信我们上会和所有的友商拉开非常大的差距,它会有数十倍的提高。
我自己的判断有一个变化。今年以前,我觉得中国的全无人驾驶还要好多年,全无人驾驶要解决的问题太多了。但今年端到端大模型开始上车测试,我们看到数据后,觉得机会就在不远的将来。在数年内也许就会看到更强力的无人驾驶甚至全无人驾驶的到来。过去10年里,大家认为智能只是新能源汽车的辅助,用户对智能的需求以前是在第10、第9名,现在可能到了第5、第4名的需求。我认为不远的将来,我们会是绝对的前三。
Q:小鹏下一步怎样保持在大模型方面领先甚至遥遥领先的位置?
何小鹏:自动驾驶是一件非常困难的事情,它不是靠钱、靠人就可以做到的,它有成功的概率,有非常大的数据门槛,而且越往后越难成,因为头部效应会越来越明显。
第二,在过去一年里,很多公司在跟着小鹏做“去高精地图”,没有成功。他们只在非常少的区域用到了轻地图或者非高精地图,实际上在这方面的技术难度远超原来的NGP。很多人说做高速辅助驾驶,在高精地图上比较容易,但是在城区去掉地图都很难。
去年中国开始有大模型的创业风,但大模型真正从模型到应用到工程落地的难度远超想象。
今天我们的升级也只是第一步,但是我们看到了一个方法论,并且把它真正落地,能够每两天一次内部OTA。过去靠人根本做不到,以前自动驾驶的规则在10万条级别。现在我们用大模型,将来会做到亿、十亿条或更大的规模。
当然它不能与以往的自动驾驶完全同比,因为它是一个推理的模型,逻辑跟以前的完全不一样。
我认为包括小鹏在内的小部分企业,会把绝大部分在做自动辅助驾驶,或者上一代以规则、AI辅助的智能辅助驾驶的企业甩的越来越远。
Q:拥有AI能力的小鹏智驾系统跟特斯拉的FSD相比,有什么优势?小鹏说过18个月要提升30倍的智驾能力,到了这个能力之后,责任的划分有没有改变?以及,智驾的成本已经降到了什么程度?
李力耘:特斯拉具体的表现,尤其是在中国,我们无法评论。特斯拉FSD如果能入华,我们是拥抱的。鲶鱼效应,能够带动国内智能驾驶行业的发展。我们非常期望FSD入华后能帮助大家更好了解小鹏的智驾,我们也对自己的智驾非常有信心。
怎么去看“AI定义汽车”?大家以前觉得端到端AI大模型就是一个大的网络。其实人就是一个最普适的AI系统,由眼、耳、口、鼻、大脑、小脑、运动神经组成整体,可能有所重合但也是分工非常明确的各个主体。所以我们对AI的认知也提出了XBrain、XNet、XPlanner,既有联系又有分工,能够非常好地提升AI智驾能力上限。
但同时,我们也是一路从高精地图或者10万+规则的过程中摸爬滚打起来的,不仅能够保证有非常好的上限,我们的下限也有多年积攒的技术兜底。
此外,我们还有非常高效的迭代体系,比如说两天一个内部版本,面向用户要月月有更新,每个季度换“新车”,迭代也非常快。
Q:最近一两年有些车企在布局智能驾驶的赛道,很多人都说智驾时代已经来了。智驾时代,赢家已经确定了吗?后面的人还有机会吗?
何小鹏:没有人敢说确定,国内也没有一家车企拿到船票,我觉得都没有拿到船票,都有机会。
小鹏在行业里走的非常专注,有一些企业最近几年在追赶,我觉得他们方向非常正确,但这不是仅靠一些人几年就能追得上的,它是非常长期的事情。
我相信这个行业将来会有少数几家能够把全无人驾驶或者完全自动驾驶做到中国甚至全球最好,但不会太多,因为难度非常高。
举个例子,现在真正原生的大模型在中国、在全球都不多见,而且有的推进很快,比如OpenAI,但也有很多推进不快,大模型拼的是长期专注和综合能力,包括数据规模、技术实力和商业实力。
我认同写软件的公司会越来越多,也认同软件公司的算法能力和技术提高会越来越快。但在大模型领域甚至很难有Tier1。Tier1卖给你一个自动辅助驾驶软件,它后面只是做少量更新。但大模型的数据要循环起来,一年的算力费用,小鹏今年一个多亿美金,但如果想从90、91、99、99.1、99.991不断地往前推进,这个费用会是多少?
以前用Tier1做集成商,在软件时代和智能软件时代都OK,但在大模型时代非常困难,所以合作方式在将来都会有质的颠覆。
Q:端到端大模型虽然能提高能力的上限,但自身也遇到了黑盒的不可解释性问题,做了哪些优化来提升整个智舱和智驾的体验?
李力耘:自动驾驶走入了无图时代后,大家会发现AI能够真正突破10万+行级别代码的能力上限,实现无上限规则的能力。AI天生能在一个非常不确定性、模糊、需要博弈的空间里,找出一个非常好的解。并且,如果我们运用好的模型架构能力和好的体系,AI还具备自我进化和学习的能力,当然还是要给它一点教导和方向,使AI能够提高上限。
AI是否具有可解释性?即使是一个端到端的大模型,也有不同部分的侧重区域,XBrain侧重于整个大场景的认知,XNet侧重于感知和语义,工作时它们是紧密协调的,并且是联合训练标注,是有机整体。
如果在工程实践中遇到问题,我们能找到到底是因为理解出了问题,还是没看见,还是因为看见了也理解对了,但动作错了。这在我们的实践中非常好解决,这也是小鹏真正量产端到端大模型的最重要前提。
Q:大家都在讲端到端和大模型,大模型之间有没有性能上的差异,它是由什么决定的,算法、算力还是数据量?
何小鹏:第一是肯定有,外面的各种语言大模型天天都在宣传,就像以前手机跑分,是一样的逻辑。但自动驾驶大模型是一个垂直的专业大模型。目前我们还在做预训练,没有后训练。
我认为在这个领域里面,目前用L4的公式去看大模型的安全和体验反而会更好,这个模型到底有多大、这个模型的数据到底有多强,最后还是要看客户的体验、用户的价值,这是我自己的看法。
李力耘:这也要看我们对算力的利用率,以及模型更新究竟有多快,每个更新版本能不能保证有进无退?我觉得整个效率体系和算力也很重要。
Q:能不能教我们一下分析端到端的方法有哪些硬指标?
何小鹏:现在很难。端到端本身是体系内的能力,是指在各种复杂场景里能够做到能力不断成长,且个性化的表现。端到端是即时响应的,规则非常稳定,在类似的环境里能够做到泛化的反馈。
对于端到端大模型的硬指标,我觉得是最终看接管率。今天高速如果没有续航的问题,可以做到1000公里接管一次。在城区,今天所有的城市辅助驾驶,我认为安全接管可能是百公里或者一两百公里。但体验接管是十公里以内。如果在城区开100公里、300公里、500公里接管一次,体验完全不一样。这个靠以往的规则算法绝对做不到,因为问题是无限的。以后我们会考虑做一些工具来测接管率,去任意道路上开100公里看它个性化的表现怎么样,但这个很难。
Q:特斯拉宣布端到端时说它放弃了30万+的代码,咱们能定义说放弃了10万行的代码吗?咱们端到端是完全的神经网络,还是后处理?
何小鹏:不能这样说,因为我们没有精确的统计。没有任何人敢说端到端都是神经网络,它是在一个体系里面完成的,就像刹车在哪里,它一定是有规则体系的。我们在规则体系里面有一个优势,能够把刹车控制器的算法沙盒做好。
Q:今年小鹏在智能驾驶和训练数据上投入大概是42个亿,在销量波动的情况下,怎样去衡量这个投入产出比?是其他少投入一些,还是维持多投入?
何小鹏:我们今年大概是70个亿的研发投入,这个投入非常坚决。从2019、2020年,纯电市场很多汽车的销量在波动,我们认为这个波动是1-2年左右的波动,不代表它的销售能力和整体能力。所以我一直想强调短期销量没有价值,但是研发要非常坚定。今年小鹏的经营能力做了巨大的提高,去年6月份我们期望单车成本降25%,到今年年底会远远超过。我们把不该花的钱不花了,在该花的钱上一定会多花,包括智能驾驶。
Q:您提到今年要投7个亿在算力上,这会成为一个惯例吗?像马斯克说每年投10个亿去买卡一样。
何小鹏:不是惯例,明年一定会更多,所以我们有点痛苦。
Q:端到端会让大家重回一条起跑线还是差距越来越大?如果端到端成熟的话,是不是智能驾驶的开发需要的人越来越少,对于算力的成本会越来越高?这是不是此消彼长的关系?
何小鹏:要看不同的团队,过去全球有很多优秀的公司没有把L4真正落地,背后有很多原因,不仅仅是算法能力或者某些能力。小鹏的道路是软件+硬件组合起来,一起从起点向高走,而不是从高做便宜,这是一个非常巨大的差别。要在汽车领域把自动驾驶做好,是工程的能力、体验的能力、全球泛化的能力、是成本和控制的能力,不仅仅是做出效果,这是差别巨大的。
我相信要把端到端做好需要巨大的车队、巨大的算力、非常长时间在安全领域浸润,这都是基础条件,如果没有这些条件是做不好的。
Q:为什么要在通用能力越来越强的时候继续推出AI代驾、AI泊车等相对比较特定场景的智能化功能?
李力耘:通用模型能力是越来越强的,但解决的是最通用的体验、效率、舒适、安全,和AI代驾、AI泊车完全不矛盾。AI代驾和AI泊车是往更加千人千面,更加学习你的习惯去做出改变的。你生活的城市,你的通行路线或者你车位的习惯都不一样。其实人也可以类比为AI,每个人都是一个非常强的AI,但每个人都有点不一样。
何小鹏:如果是完全通用的AGI,但到达真正的能力还很远。做特定场景现在就可以把体验再加50分,你愿不愿意,还是再等10年或者20年?我不认为通用AGI会很快。
Q:今天一些车型开始推送AI天玑系统,您预计智驾的长板在什么时间节点会带来销量质变的提升?
何小鹏:什么时候到拐点?我现在不太敢说。以前用规则写程序大概知道有50个程序员,变成100个,数字提高接近1倍。但在训练里面,AI大模型在初期训练中有不可解释性,从零到有用需要较长时间。
但我们发现,从有用到好用可能比想象快非常多,以前靠堆人是做不到的。所以今天我们还在培养它。我觉得在当下硬件性能不变的条件下,只通过软件升级,大概12-18个月能够取得非常大的颠覆,但是它需要庞大的训练量和长期的训练时间。我说它会颠覆很多原来做自动驾驶的公司,是因为随着高阶自动驾驶和无人驾驶的实现,智能辅助驾驶技术不可能以单一软件功能的方式售卖,智驾会带来高昂的数据费用。
Q:12-18个月在不更换硬件的情况下可能会有一个拐点,这个拐点具体指的是什么?
何小鹏:我希望在包含小区在内的所有城市道路,能够做到极低的接管率和极高的安全率,而且你不会感觉到它比较慢或比较蠢,老是在那里僵住、博弈的感觉。
Q:AI智驾在出海这件事情上是怎么落地的?每个国家对数据要求都不一样。
何小鹏:我们先把规则类,例如NGP这些能力做到全球,这些基本对数据没有要求。我们会把大模型端到端的能力进一步优化后再做出海,在海外我们会严格按照数据隐私要求去做全球化的整体能力。
Q:我们和大众的合作今年是非常受关注的,未来小鹏有没有意愿将这种合作模式推广到更多车企?
何小鹏:现在有一些厂商在跟我们沟通,期望通过这样的方式进行更多合作。我们不是一个标准的Tier1,我们期望能够有更深度的合作伙伴走向全球。在过去的时间跟大众合作非常好,每一家海外的大型企业都有非常多的点可供我们学习。