过去,智驾方案领域一直有着“地大华魔”等四家国内头部智驾玩家的说法。如今,以城区高阶智驾为一道分界线,以“华元魔”(华为、元戎、momenta)为代表的第三方“端到端”技术供应商,逐渐抢占了技术方案与车型落地上的先机。
北京车展期间,华为、元戎、Momenta均推出了端到端的量产智驾方案。
华为一直是话题流量的王者,拥有极强的技术号召力,研发规模达7000人。2022年之前,华为也在用高精地图,而后坚定地走无图路线。2023年4月16日,华为正式发布不依赖高精地图的ADS 2.0。
Momenta则是依靠自己丰富的量产经验,与比亚迪、广汽、丰田、奔驰、通用等车企的合作,为它的端到端方案提供了数据养料。
相比于前两者,元戎的特点在于原生的AI基因,发力时间早。如果以端到端的研发时间来看,元戎2023年3月就确定了端到端方向的研发,8月就完成了端到端模型的道路测试。从这点看,元戎是国内最早把端到端模型测试车跑在城市公开道路的方案商。
据雷峰网(公众号:雷峰网)了解,元戎的第一款车的量产仅仅花了8个月的时间,而后续一个新的车型适配时间会缩短到3-4个月。10月,吉利与奔驰合资的Smart品牌旗下的smart 精灵#5 上市,该车型也采用了元戎启行提供的无图城区NOA功能方案。
11月初,元戎启行完成一轮1亿美元的融资。截至目前,元戎启行已完成6轮融资,累计融资金额超5亿美元,高阶智驾平台DeepRoute IO已成功搭载上车,与车企共同打造的量产车已超2万台,并与多家主流车企共同推进10个量产项目,涵盖了SUV、MPV、越野等各种车型。
端到端的原理无需赘述,想要做好一个端到端模型有三个因素:好的模型、海量的优质数据和大算力。更容易形成壁垒的,是前两者。
与大语言模型在互联网上爬取海量文字数据用于训练不同,端到端智驾需要的视频数据获取成本和难度极高。量产上车,是获取优质数据、迭代模型的一条必经之路。这也决定了端到端是一条“强者恒强”的技术路线,留给后来者的时间窗口则会越来越小。
元戎启行CEO周光说,元戎已经投入了更多的精力在下一站的VLA模型。VLA模型是一个融合了视觉、语言和动作的多模态模型,可提高模型的泛化能力和判断推理能力。到2025年,元戎的 VLA 模型将基于英伟达下一代智能驾驶计算平台Thor正式发布,届时元戎将成为业内首批将 Thor芯片部署上车的智驾公司之一。
目前,行业里流行的做法是One Model端到端+VLM技术架构。
在周光看来,VLM+端到端与VLA模型的区别在于,前者是教练通过语言的形式教学员开车,后者是教练自己开车。“教练开车和学员开车,两种方式你更放心哪一个?”
元戎有着不同于行业的竞争心态:不打价格战、不搞车海战术。周光表示,“如果合作的车型只能卖100、200台没有意义。我们需要的是数据,所以我期待有更多的爆款车,来补齐工程化的基因。
明年,元戎会基于端到端架构去拓展Robotaxi业务,并且积极开展海外业务,明年还会参加日本车展。
周光认为,“元戎启行的公司愿景是为真正的AGI做一些贡献,汽车不应该定义成汽车,而是一个机器人的载体,希望元戎启行的技术能够应用到整个物理AI。”
新智驾:元戎的这轮融资,应该是今年智驾行业比较重磅的一笔。
周光:近两年从投资机构拿钱挺难的,其实我们也有能力去融一些比较好拿的钱,但没必要。我们账上还有余粮。而且,我们的风格是该花的花,该砍的砍,我们砍掉了港口,也砍掉了L4。
新智驾:这笔钱对于行业有什么样的激励作用?
周光:行业里有做得好的拿到了钱,这很正常。最差的情况是什么?你做到最好也拿不到钱。
新智驾:能不能谈谈你们跟客户第一次见面时的场景?对方提了那些要求?
周光:我挺佩服他们的。第一次就见了他们总裁,只对我们提了一个要求,要求我们all in,在量产车上实现跟今天一样的效果。实际上,做到今天这样上车的效果,没有双方all in是不可能的。他们也是全力以赴,特别开放地投入。
而且,我们量产真的是第一次走完全程,不是几百台工程车,所有的问题都是在万级的数量级去体验。你不知道我们客户会把车开到哪里,就好像有的case在农村,到处都是鸡。但最后,我们也都处理好了。
新智驾:在这些极端场景里,元戎做的怎么样?
周光:跑得可以。2023年3月,我们就发布了“无图”方案,我们第一个搞出来的。但当时我们做了一个非常巨大的决定:量产端到端。这就意味着,我们是原生的端到端,一开始就是端到端的技术架构,所有的产品、工具链都是围绕端到端来开发,不能先上一套rule-based的无图方案再去迭代。
我们是唯一一个,你跟我约定一个城市,我们就能在约定地点一起接车,马上去测试的公司,我觉得直到今天也很难有公司这么做。
做得好也因为我们足够all in,我有三四个月待在主机厂所在的城市,回到深圳的家都有点陌生。但做项目需要双方都all in,如果是各怀鬼胎没有意义。
新智驾:八个月的量产时间是如何做到的?
周光:我们之前也有过几乎量产的定点项目,这个项目还是现在智能化营销做得最好的一个品牌。借这个机会,我们也积累了很多的项目经验。
虽然我们在技术上走得最早,但当时行业认知是,做自动驾驶必须有图,大家都认为“无图”是皇帝的新衣。光靠元戎根本不可能(把市场教育起来),连车都上不了。只有这个品牌有能力成为“鲶鱼”,去把智能驾驶行业搅活起来。
这个公司学习了元戎的技术,干出了第一版“无图”方案推向市场。所有主机厂才慌了,才掀起了国内的智能化浪潮,中国汽车市场的智能化水平才能像现在这样。
新智驾:跟主机厂的合作,让你们学到了什么?
周光:我们跟主机厂的合作,本质是把我们变成更to C的公司。哪怕是端到端、“无图”技术,没到量产前,都还是通过demo获取客户,你只关心这个系统的上限。
但是真正的量产,需要把产品交到消费者手中。你对底线的把控、对稳定性的把控、对一致性的把控,这非常重要。2020年,我们10台车里只有7台能用,其余3辆不知道什么原因用不起来,这也是量产上的经验不足导致的。
跟头部主机厂从0到1量产合作,是极其难得的机会。因为0到1是最关键的,市场机会是逐渐收敛的,没有人再愿意冒险把车给没有量产经验的厂商。我觉得元戎是最有tech vision的。
新智驾:第一个量产项目有没有挣到钱?
周光:营收很可观。但如果要覆盖研发成本,那(第一个项目)还不够。高阶智驾和低阶智驾不一样,高阶智驾的市场没那么恶劣。我们现在跟别人谈都说:元戎比别人贵,但是效果好。并且比现在某头部厂商,我们(智能驾驶系统的)价格还是很亲民的。
新智驾:有哪些量产经验可以沉淀下来?
周光:核心还是系统稳定性。本质我们是一个AI系统,不是靠代码,按道理我们的工程难度比中低阶rule-based公司难度低。他们写if-else,遇到问题就反复调。我认为这不是工程学问题,我们是AI,为什么要调整那些规则呢?
新智驾:基于AI就不会出现bug吗?
周光:不能叫bug,并且我们有安全机制。第一,我们出现问题的概率很低,第二,我们对安全问题有兜底。另外,安全兜底机制肯定要迭代。随着AI能力的提升,你会更不想去限制这个AI。只是在某些场景下,兜底机制会去接管这个车辆,避免风险发生。其实,今天的AEB就是人类智驾的兜底,我觉得未来AI Safety会变成新的AEB。
新智驾:未来合作车型有什么进展?
周光:在共同推进10余款车型的量产。我们是和客户深度合作,跟一些厂商的车海战术风格不一样。这样的逻辑,车企也愿意跟我们一起打造爆款车型。
新智驾:数据背后,数据的带宽和存储费用就很巨大,这个成本和算力储备问题如何解决?
周光:端到端跟VLA对算力要求没有语言大模型那么大,今天的Orin能够实时跑的也就是10亿的参数,车端的端到端VLA跟真正的大语言模型比起来是个小网络。
做端到端和VLA的时候,算法是巨大的差距,对算力的要求没有大模型那么大,我们自己投了不少钱在卡上,也有自己的算力储备。同时阿里也是我们的股东,我们在有算力需求时候也可以跟股东寻求帮助,这并不是问题。
新智驾:目前元戎团队规模如何?
周光:集团人数800人左右。人越多说明你越原始,越不是端到端。AI相关人才难以快速扩招,但是量产交付的工程团队相对好点,这么多年,主机厂、传统Tier1已经培养了很多工程人才。
新智驾:元戎是行业里比较早做无图的公司。但是此前,在我们的采访中,有地图厂商的负责人直言:过去,高精度地图全部装在车机端的,现在变成在训练端。一些车企每时每刻都在用高精度地图,同时通过数据采集,进行云端训练。什么才是真实的无图NOA?
周光:我们是最早的,不是比较早。比较早期的版本,确实很难看出来是不是无图。但是端到端模型做出来的时候一定是基于“无图”。你想做好AI,你就没办法用高精地图的形式去做。高精地图是矢量数据,AI不擅长处理矢量数据,就跟人对加减乘除一样天生不擅长。
新智驾:目前,高阶智驾里有一个不成文的“华大地魔”的第一梯队的说法,您认可吗?
周光:华大地魔是去年的说法。去年能跑高速NOA的就能称为高阶,但今年的高阶就是真高阶,要有城市NOA。现在已经量产城市NOA的智能驾驶公司也就三家,元戎是其中一家。
新智驾:今年的快速发展,元戎是不是已经进入了第一梯队?在您的标准里,哪些要素是成本第一梯队必备的?
周光:具备“无图”端到端的城市智驾能力,才有可能进入第一梯队。但这是一个鸡生蛋、蛋生鸡的问题。你要做端到端就要先量产,没有量产数据玩不了端到端。但你现在没有端到端,之后就量产不了。这就是为什么我说以后的智驾方案商会很难,身位会被拉得越来越远。没量产经验的,想让车厂付出一定的时间成本陪你玩,这很难了。
另一方面,成为第一梯队,你需要有万台级起步的量产车,低于万级没有意义。端到端1.0能有万台级的车,效果就很好。要做VLA,10万台车的规模才是一个理想状态。VLA对数据量的要求会比端到端1.0多一个数量级。国外的一些端到端公司没有量产项目,解决不了数据问题,10亿美金也买不到数据,物理AI在中国的机会还是比较大的。
新智驾:此前,元戎被媒体报道会采用高通的智驾芯片。但是您在公开演讲中也表示,基于端到端模型,元戎启行正基于Thor芯片研发VLAM(Vision-Language-Action Model,视觉-语言-动作模型),该系统将于明年推出。高通的这一说法靠谱吗?
周光:我们还在评估。我们的方案可以适配各家芯片厂商,可以根据主机厂的要求去做适配。芯片是主机厂选,尤其是海外的主机厂,会更提前选定芯片厂商。
新智驾:现在是11月,明年到这个时候,端到端会有什么样的变化趋势?
周光:可能今天你用高速NOA觉得很舒服。但在端到端出来之前,城区高阶智驾就不是好用的状态,真正好用还是在端到端出来之后。
到明年这个时候,你用城市NOA就会像高速NOA一样舒服,百公里级的接管频率明年应该能看到。当消费者很愿意用的时候,市场就真的收敛了。
新智驾:今年年初,您关于L4的说法引起了不少争议,您的看法还是这样吗?
周光:L4这条路就是有局限性,它商业化落地就是很难。我觉得,大模型出来之后,大家更信AI了,这是一个价值观的变化。你不能对这个世界发生的事情无动于衷。
我是2020年就意识到(基于高精地图方案的)L4这条路存在不足,但是我们会做robotaxi,以端到端架构支持运营,而不是基于模块化的、基于高精度地图去做,那没有意义,没有商业化。我们的运营模式就是没有区域限制的运营。
物理AI最根本的目的一定是取代人,自动驾驶的最终目的也是把人去掉,让机器帮我们开车。技术线路的问题,就是说你不要拿Waymo这套技术线路和特斯拉的技术线路比,两个出发点是不一样的。
新智驾:元戎有上市计划吗?
周光:我们不急。因为我们走在正确的路上,也有自我造血能力,没有什么上市压力。