今年,从决策到量产交付搭载自研智驾方案的新款极氪001,极氪只用了4个月时间。
脱离之前的Mobileye方案,极氪自研的浩瀚智驾方案采用了全新的传感器和计算平台。老款车型换代时,把这套软硬件装上车,要做的改动并不少。
“在全国做高阶智驾的厂商里,还没有看到哪家用4个月把高阶智驾从头做到量产。”
极氪副总裁、智能驾驶负责人陈奇已经习惯打这种高强度的攻坚战,极氪的智驾自研起步较晚,途中还有很大一部分精力投入到原来的Mobileye方案,跑步追赶是他和团队的日常。
陈奇曾被称为“华为自动驾驶”的第一人,2021年下半年加入极氪,这个时间点不算有利。因为在2021年初,小鹏已经推出了覆盖全国范围的高速NOA。在争分夺秒的智驾卡位期,留给他做出自研成果的时间并不多。
入职的前两年,陈奇先用大半年时间搭建团队和开发体系,再用一年多的时间做研发,完成量产框架的从0到1。而跑通第一次量产,又花了近半年时间。
去年末,007正式上市,极氪有了第一批搭载自研智驾方案的车型。当时,极氪交付的智驾功能还仅限于高速NOA,在城市里只有LCC和泊车功能。
今年8月,极氪推送了面向全国的城市通勤功能;10月末,极氪开启采用端到端架构的无图城市NZP的全国公测。从第一款自研车型上市,再到今天量产无图端到端大模型,极氪只用了10个月时间。
极氪的无图端到端架构吸纳了行业流行的框架,即端到端+多模态大语言模型的快慢系统组合。极氪的端到端大模型现阶段为两段式,感知模型与规控模型通过显示和隐式连接,实现反向传播、连续可导;其多模态大语言模型则命名为MLM。
这个架构以外,极氪还提出了汇集人驾经验、人驾轨迹以及时空环境等先验信息的数字先觉网络。
极氪认为,如果把端到端大模型比作人的大脑,多模态大语言模型比作人的小脑,大脑+小脑的组合还不足以还原完整的人脑,所缺失的部分是海马体,也就是将重要信息转化成长期记忆的功能区。
数字先觉网络承担着海马体的角色,原理与记忆行车功能相似,车辆在行驶中不断采集、沉淀自车数据与环境信息,形成经验信息,为端到端大模型与多模态大语言模型的决策提供参考与指导,实现从新手司机向经验丰富的本地老司机进化。
在极氪看来,端到端+多模态大语言模型+数字先觉网络的组合,才是面向未来3到5年的完整算法架构,预计行业的技术路线会逐渐向这个方向靠拢。
陈奇的团队成员中,有不少智驾经验丰富的专家。
他们自称是“国内最先做城区智驾的一批人”,其中一些人从12年前就开始接触智驾,清楚智驾在城区里面临的问题和挑战。
极氪成立至今,受到的最大质疑都来自于智能化,对于陈奇的团队而言,追赶也是为了“争一口气”。
一位极氪智驾自研团队的早期成员告诉雷峰网《新智驾》,团队的工作强度大、节点激进,但是极氪也有“佛系”的一面,“佛系”体现在没有盲目跟从友商的节奏,之前都是埋头在干,宣传很少,“不跟大家争,不跟大家抢,全按自己的计划和节奏来”。
三年时间,极氪打造了一个从硬件、底软、中间件、算法、应用到数据平台、工具链均为全栈自研的智驾体系。
在吉利集团走向整合、协同的趋势下,极氪的高阶智驾将面向整个集团进行输出,已有品牌正在协商使用极氪的智驾方案。
雷峰网(公众号:雷峰网)《新智驾》近日参与了极氪举办的两场沟通会,与陈奇、极氪自动驾驶运营部部长顾志强进行了一次对话,《新智驾》对此进行了不改变原意的编辑和整理。
Q:极氪从什么时候开始做端到端?
陈奇:有几个博士很早就开始研究,最近重点发力,追得快不是因为技术简单,而是我们原来的架构设计已经有往这个方向做考虑。
Q:极氪推出的无图NZP直接就采用端到端架构,中间是不是跳过了一些步骤?此前小鹏、理想都曾表示,智驾的迭代可以加速,但是不能跳过。
陈奇:自动驾驶没有银弹,无法用一种方法解决所有问题,要有很多工程上的积累与沉淀。到现在为止,如果连基于BEV+Transformer的高速(NOA)都没做成,直接跳到端到端大模型,很难跳得过去。
行业经历了很多次技术路线变更,从机器视觉到深度学习,后来是BEV+Transformer架构,开进城市里,先依靠高精地图,再步入轻图,现在经历到无图跟端到端。
我们比他们少经历的是重图跟轻图两个步骤,我们直接做了城市通勤模式,以及现在的无图端到端,将来会把通勤模式跟无图端到端结合到一起。
Q:怎么理解通勤模式跟无图端到端的结合?
陈奇:通勤模式包含了一部分数字先觉网络的信息,比如在通勤模式下走一圈,记录时空环境信息,包括道路的豁口,或者是商场和医院门口那些比较繁忙的路口。早期,可以通过这些时空环境信息为端到端赋能,在这些地方做更优化的处理。最后,这些智驾经验融合成一个模型,逐步通过模型输出(指令),解决道路情况等线性信息。
我们会先把通勤和无图端到端都做到极致后,再做这两种模式的结合。如果先把轻图和先觉网络放进算法里,会过度依赖于先觉网络,那无图的泛化能力可能做得没那么好。
数字先觉网络与端到端结合,输出端的轨迹数量增多,要在这些轨迹里选出最优的解,目前对规控人员其实是一个很大的挑战。很多人提到,端到端以后做规控的人是不是不需要了?端到端大模型是不可解释的,原来做规则的人最知道端到端出来的哪些数据是正确的,还是要由这些人对出来的轨迹和控制信息做评价。
评价的维度包括效率、安全性和舒适性,要在这些维度里确定哪一条才是最优的轨迹,这对于规控工程师的要求更高了。怎么评价这些轨迹是个很关键的话题,但现在大家都没提。
Q:数字先觉网络对规避端到端“下限低”,有多大作用?
陈奇:可以打个比方,例如前面有个坑,不管是深坑、浅坑还是人为画的坑,立马做出反应的是端到端网络。
会去思考并根据坑的深浅来做反应,是MLM大模型。
数字先觉网络是发现大家都在这个地方绕路,或者用户以前已经开过这条路,知道这个地方有个坑,提前预判和变道。
就像扁鹊三兄弟治病,扁鹊大哥治未病,扁鹊二哥治小病,扁鹊治大病,数字先觉网络类似扁鹊大哥,在事情没发生前,就做了预防性的动作,让智驾更安全、省心。
Q:数字先觉网络把不同车主收集到的数据都上传到云端,再共享给其他车主,是这种形式吗?
陈奇:初步是这种形式,后面也可以做到千人千面。城市通勤模式是根据个人来的,现在要把数字先觉网络覆盖得比较广,会先做一版通用的,就像端到端一样,现在先做通用,再根据地域做个性化的东西。
顾志强:数字先觉网络里面有两部分,一部分是先觉信息,还有一部分是把人的开车经验放到模型训练之后沉淀成肌肉记忆。
放武汉的驾驶数据进去,开起来就和北京、上海的不一样,因为每个地域的开车风格不一样。模型综合训练后,会包含各地的驾驶风格。
将来的终极形态,可能是在武汉的时候,就把武汉的驾驶风格调出来,达到入乡随俗,开车风格不突兀。当然这可能还要走一些路才能实现,但会往这个方向去发展。
更终极的就像大白(陈奇)说的,能做到千人千面,相当于把自己学的经验直接在本地应用了。
Q:总体来说,极氪做端到端有什么优势?极氪本来数据积累并不多,今年能把端到端做上车,靠的是什么?
陈奇:数据上面也不算少,已经有大几万台车在全国各地跑,今年8月以后,极氪每月的交付量都在2万台以上。
端到端一方面靠数据量,另一方面得靠有效数据量,关键是怎么把有效数据选出来,这很考验技术。2015、2016年,很多车企都说数据量很多,但实际上数据的重复度非常高,有效数据量不够。
另外除了有效的数据,端到端还需要好的数据配比。如果这方面做得好,速度就能快很多。有好多智驾团队号称请了国宾司机,按照他们的开车习惯做数据训练,但实际上可以从量产的数据里,把类似于国宾司机的驾驶风格筛选出来,这是要花精力、花代价的,但数据量可以做得很大。
端到端后,智驾系统也会出现不稳定的情况,有时进步,有时退化,只有把整套智能驾驶的数据闭环了,数据筛选、清洗和后端评测体系构建完全,才能真正发挥作用。
Q:极氪切换到端到端架构,做了哪些组织架构上的调整?
陈奇:组织架构上,端到端从感知、预测到规控都是一个团队,效率最高,无论是物理的实体组织,还是虚拟组织,只要能把这个团队高效运作起来就行。
第一时间,我们把感知、规控全拉通了,整合成一个虚拟化的团队,有专门的人设计方案、盯方案,数据和训练整个团队都在一起。
刚开始的磨合期,团队所有人都聚到一个办公地点进行封闭开发,一起办公、一起吃饭,等到能分解各个模块,或者成员弄清楚自己的任务后,再回到原位。
Q:现在我们的预研团队会研究什么方向?
陈奇:都会看,我们的多模态大语言模型还比较初级,需要继续研究;现在行业里已经开始用ChatGPT做智驾模型,我们也在探索这个方向。另外,数字先觉网络也还有很多可以挖掘的地方,我们同步在研究。
Q:端到端以后,我们会有一个预想的团队规模吗?
陈奇:团队跟平台、车型有关系。每个车型都需要调试后再上车,比如001跟007的转向就有很大不同,所以每个车型都需要一部分调试、测试的人。
我们现在还是往前赶的阶段,今年我们上了新款001、007,还有7X和MIX,后面也还有很多款在研的车型,要承接的车型很多,压力不小。集团协同以后,车型也会更多,所以现在还无法给出精确的预测。
不过,我们团队的战斗力很强。以2025款极氪001为例,前后也就花了四个月时间,这还是在更换了智驾硬件、工作量特别大的情况下实现的。在全国做高阶智驾的厂商里,还没有看到哪家用四个月把高阶智驾从头做到量产。
Q:现在无图NZP的公测时间提前了两个月,年底要全量推送,25年初又要推door to door,实现这样一个目标会有压力吗?
陈奇:压力肯定很大,很多时候都是没日没夜地做,我们每次都会选一个城市,驻扎在那里解决问题。今年推城市通勤,就选择在武汉、广州攻坚。
为什么选择这两座城市?去年底要量产007的时候,正好是广州车展,想着要量产了就先做个试验,从上海开到了广州,另外还有一帮兄弟往西部开,经过武汉。高速上一路的表现还行,只有一点小问题。当时在城区里,LCC还是主打功能,比拼十字路口能不能过、十字路口能过多长这些指标。
我们发现,广州和武汉的城区表现得一塌糊涂,所以在广州、武汉攻坚了大概一、两个月。
这样下来,我们的LCC绝对是行业顶流,只不过是NZP起来之后LCC就不太有人用了。
2025款001的交付时间比较短,也有一段攻坚战。去年007上市之后,第一代产品有问题要修复,后来我们要攻克“指尖车位(指尖泊车、立体车位)”,做城市通勤,这些都占用了我们很多资源。
虽然通勤和无图对比行业来讲要稍微晚一点,但是效率很高,我们的推送也一再往前提。
能做到这点,是因为我们整个架构搭得不错。在刚设计的时候,我们考虑了架构的可扩展性和演进性,所以能很快切换到无图端到端,这是我们的优势之一。
另一方面是,兄弟们也比较愿意付出,带有一些梦想,很希望能做到行业里面的No.1, 所以也都憋着一口气在拼。
如果能只做一款车那就太爽了,我很羡慕以前的蔚小理能有很长时间的技术积累期,前期可以用一两款车来打磨团队和产品,我们基本一路都在跑步追赶。
团队里还有Mobileye的方案,我现在还有很多精力都在那头。极氪和安总对用户都非常负责,不管怎么样,安总都要求我一定要把每套方案都做好。
Q:回顾加入极氪的三年时间,你会怎么划分极氪智驾自研的不同阶段?
陈奇:前面一年都在搭团队和构建基础的研发能力。
主机厂的软件研发能力比起原来互联网或者高科技行业还是相对薄弱一点,团队和软硬件开发体系的搭建花了半年多时间,到了2022年3月左右,团队的核心骨架已经搭成,也有了智驾最小的原型。
第二阶段是正常研发的阶段,花费了一年多一点的时间,到2023年6、7月份,整套量产的框架基本成型,数据平台、工具链也都有雏形了。
我们真的是从零开始,我们原来搭载Mobileye方案的车型数据,因为传感器的格式不同,没办法通用。
从2023年下半年开始,就是各种量产的攻坚。
所以从2021年到2022年3月份,完成了团队的从0到1;到2023年年中,完成了量产框架的从0到1;到2023年底007上市,完成了量产从0到1的过程;这之后开始多车型适配、量产车型维护和新功能迭代。
今年8月推送城市通勤,也算是有个初步成果。紧接着10月份公测无图城市NZP,开始了进阶城区的阶段。
Q:你觉得自研步入正轨是什么时候?
陈奇:2022年5、6月已经步入正轨。
我们团队里有很大一部分人已经做了很长时间的智驾,有些从2011年、2012年就开始接触了。我和我们团队里很多人也都经历过大的产品洗礼,都做过上千人甚至是几千人合作开发、代码行数达到千万量级的产品。
如果没有这些经历,很多体系搭不起来。我们现在的研发体系比较健全。
我经常跟安总说,我们帮公司做好一个产品不算牛逼。行业里面有这样的例子,虽然已经做出了产品,但主力离职以后,没人能接起来,对公司造成很大损失。
关键是要把技术、知识沉淀到组织里,这一块我们做得相当好,我们从需求到设计到开发到测试到售后,甚至到用户运营,整套链路都在同一个平台里,双向可追溯。
Q:极氪做智驾的风格是怎样的?
陈奇:我们起步较晚,人数不多,方向不能走错。极氪智驾的执行力很强,团队敢想敢拼敢干,另外在技术上我们也会同时探索多个方向。
顾志强:我们一开始就花了比较多时间去思考架构,现在的架构想的比较清楚,保证每一份研发投入都不会绕弯路。
我们通勤也发,无图也发,业界做这两个模式的除了极氪,还有另一家头部车企,但他们家不是像我们这么思考的,我们将来要将这两个产品形态进行融合。
Q:极氪一边做城市通勤,一边做端到端,一边还在做车型适配,分散了不少精力,对研发体系的考验有多大?
陈奇:整个架构我们做过设计。端到端跟无图,如果当成两件事情来做,人力吃紧。端到端跟无图可以作为一件事情来考虑,端到端只是无图的一种技术而已,也不一定要一下就过渡到One Model,可以先用两个模型把端到端做起来。
像通勤、规则那部分,完全可以用来做我的兜底,做我的评价,跟无图结合。你把这些做成一件事情,人力消耗上就会小很多,不会因为同时开展几件事情导致人力翻倍。
Q:极氪的智驾会把谁当做借鉴对象?
陈奇:我们觉得好的,都学。每家都有比较好的地方,也有不好的地方,有些场景,我们做得更好。
现在无图城区智驾,每家都还有很多问题,谁排老大、谁排老二没有明晰标准,激进的版本会让用户不够安心,慢慢开,反而安心感更足。
所以,第一个无图城市NZP版本,我们考虑得就稍微保守一点。
Q:今年端到端的上车速度整体超过预期,你会觉得这里面有被激烈竞争所裹挟的成分吗?
陈奇:整体速度的确超预期,能有这么快的速度,也是因为大家敢想敢拼,公司对智驾这边的资源相当倾斜。
行业卷起来,或多或少都有被裹挟的成分存在,没有哪家不被这个大趋势推着走。
但在浪潮之巅搏一把,也是对人生最好的回报。连被裹挟的机会都没有,才叫行业的悲哀。
往回推两年,对现在的城区智驾都不敢想象,原来花两年时间也做不到这个程度。智驾一向是最难的难题,还是需要大家一起热火朝天往前推。
Q:现在市场有不同智驾技术路径,极氪保留了激光雷达,但也有厂商推崇纯视觉,你们对不同路径的安全性、成本有哪些看法?哪一条技术路径最终会胜出?
陈奇:无图技术和是不是纯视觉不矛盾,极氪如果把激光雷达去掉,表现也会很好。有图无图、带不带激光雷达,不是技术路线之争,关键是如何考虑用户安全。
在没有大数据训练过的场景下,如夜晚或极端天气,激光雷达的表现优于所有传感器,一束光发出去直接回波,甚至可以感知到异形石头。有了激光雷达,很多极端场景会处理得更好。
林金文(极氪副总裁):在极端场景里,没有激光雷达,对高阶智驾的安全性保证是不足的。绝大部分厂家,包括华为这种智驾Top级厂家的高阶车型都是带激光雷达版本,无论是头部、尾部汽车企业,都支持高阶车型搭载激光雷达。
激光雷达很昂贵,但实现的功能和安全性同样不可替代。极氪坚持搭激光雷达,基本绝大部分车型都是标配。
很多降价降到20万及20万以下的品牌,BOM成本没有能力承载激光雷达这样的高阶硬件,来实现更高阶的智驾。极氪面对高端豪华市场,不会把价格打得很低,同样不参与价格战,像001,三年前价格是26万多,今天基础版也是26万多,不像一些品牌价格降得非常厉害,几乎降50%以上,极氪还是坚守价格底线。
Q:极氪后面所有的车型都要上浩瀚智驾吗?会延续全系标配的方式吗?
陈奇:至少现阶段所有的产品是这样,但是后面还是要根据产品的定位和节奏来。
Q:那极氪现在全系标配的考虑是什么?
陈奇:作为一个高端豪华电动品牌,用料肯定要足。智驾是一个智能化部件,也要为三、五年以后的更新和迭代、功能演进考虑,至少那时候不会那么捉襟见肘,让很好的功能用不起来。
Q:全系标配,其实很大程度是把智驾也免费送给了用户,涉及到智驾商业模式的问题。了解到极氪内部正在探讨一些智驾服务,用运营来收费,你们对此的思考是什么?
陈奇:运营模式收不收费,还是要看市场来定。我们的确有这方面的思考。如果智驾体验达到一定程度,将来就要做各种各样的服务,包括推荐或者引导服务。
比如到服务区里,直接引导车辆到充电桩里充电,甚至车主可以提前下车,又或者是推荐餐厅,车主直接点一点,就能直接送到餐厅车位。如果将来粘性做好了,有可能会是一种可以收费的模式。
我们尽量把这种服务做好,会形成车主的习惯,极氪车用惯了,用其他车就不习惯,很多为个人量身打造的服务在其他车上找不着,那么下一辆车还会优先买极氪。
Q:安总这三年来对智驾的态度有过变化吗?
陈奇:安总一直对我们很支持、很信任,我们自己本身也比较拼,很希望把体验打磨好。安总很多时候为我们考虑,尽量创造环境让我们专注工作,他的评判标准很简单,就看用户体验好不好。
Q:安总今年给你定的目标完成了吗?
陈奇:根据产品线节奏,基本上我们都守住了。
老款001由于还没有走到无图的方向,后面开城还需要一定时间。现在我们也想快一点,前段时间我们研发的工程师和总监都想去以色列一起调,但是现在战火纷飞,整个进度还是会受到局势的影响。
我们肯定还是会持续不断地优化,包括泊车、城市都在赶,加紧验证,希望能早点给大家推出来。
Q:极氪和领克进行整合,极氪智驾如何反哺其他品牌?
陈奇:现阶段我们整个团队还是聚焦于极氪自身,希望把最好的技术还有功能都应用到极氪的车型上。
对外方面,要根据集团的协同、资源的整合。合适的时候,极氪智驾肯定也会考虑开放给兄弟品牌,有一定的发展动态,我们会第一时间告诉大家。
Q:极氪的智驾方案分享给兄弟品牌,会不会区别对待,比如降低硬件配置?
陈奇:我们储备的方案肯定不只有一个高阶的,有一些其他的方案,会根据产品定位和品牌定位进行选择。
现在有一个趋势,越来越多十多万的产品也用上了高阶智驾,比如双OrinX芯片或OrinX芯片+4D毫米波+激光的情况,还是要根据市场的情况以及车型的定位来决定。