商汤绝影王晓刚：商汤大模型将对软件架构进行重构，促进座舱和驾驶结合

商汤绝影王晓刚大模型

作者：黄华丹

2024/03/25 15:26

商汤绝影王晓刚：商汤大模型将对软件架构进行重构，促进座舱和驾驶结合

作为商汤的汽车事业独立品牌，商汤绝影此前的业务更多的是座舱里面和视觉相关的产品。而在智驾方面，商汤绝影则于2024年初在哪吒S上落地全栈智驾方案。

作为AI四小龙之一，商汤希望实现的能力不止于此。在2024年电动汽车百人会上，商汤绝影总裁王晓刚表示，基础设施对于人工智能的下一步发展和突破是非常重要的基础条件。

特斯拉今年GPU的规模会达到十万块，比国内各主机厂算力储备高了两个数量级。

而商汤目前已拥有4万块GPU和8000P的算力，今年算力预计还将增加一倍，能有力帮助主机厂推动大模型的发展。

在当天与雷峰网(公众号：雷峰网)新智驾在内的多家媒体交流中，王晓刚表示，商汤对大模型的使用不仅限于外挂大模型，而是要对汽车的软件架构进行重构，实现端侧和云侧大模型的协同、高效的运行，包括各种数据的流转。

“之前商汤绝影的产品更多座舱里面跟视觉相关的，今天就要突破视觉，突破单点功能演变成多模态座舱整体产品的体验，会把我们的产品变厚，包括座舱跟驾驶的结合。”

这也是王晓刚认为商汤绝影相较于今天市场上专注于智能座舱和智能驾驶产品的企业最大的优势。

此外，王晓刚还就出海、舱驾融合等内容进行了分享，以下为对话实录，雷峰网《新智驾》进行了不改变原意的编辑。

Q：相比于友商，商汤在智驾方案方面有哪些优点和优势？

王晓刚：自动驾驶经过几年的发展，未来发展的思路和路线也在逐渐清晰。面向端到端的大模型为基础的自动驾驶解决方案是数据驱动，以视觉为主。当前自动驾驶的系统里面有很多模块，其中只有感知模块是基于人工智能和神经网络的，剩下其他模块大量是靠手动编写规则来实现的。

随着自动驾驶从高速走向城区，它的复杂程度大幅提升，通过人工编写规则的方式成本非常高，效率比较低下，所以就走向端到端的，基于大模型的自动驾驶。

商汤本身在视觉方面拥有比较强的优势，2022年底，我们在业内第一个发布了端到端自动驾驶大模型UniAD。接下来我们进一步提出了多模态大模型自动驾驶方案，这种方案除了感知传感器，系统的信息外，还允许人机交互，通过自然语言作为输入，这样我们的自动驾驶系统还可以跟人有这样的交互。当自动驾驶时觉得旁边的大车有压迫感，如果想离它远点，或者想超车，想跟着前面某一辆车，都可以通过语言模型进行交互。

另外，输出的时候不但可以输出感知，还可以输出规控，还可以对自动驾驶做出的决策有解释性。以前自动驾驶我们觉得它是一个黑盒子，现在基于大模型它就是有解释性的。

实现大模型的推广和应用要依托强大的基础设施。商汤大装置目前有4万块GPU，8200P算力，今年还会把整个算力翻一番。特斯拉提出来今年要有10万块GPU，这个体量才能支撑智能化这方面的演进。相比来说，国内很多车厂和供应商跟特斯拉提出的目标还要差一到两个数量级，在这块商汤也有优势。

Q：商汤大模型和其他家大模型有什么区别？在智驾上的应用进展如何？

王晓刚：我们核心是要打造座舱大脑，其特点不是单一的模型。像基于我们的商量大语言模型的座舱大脑，不但可以和乘客、驾驶员产生互动，而且还可以做各种决策和任务规划、推理，能够调用车里面各种APP，包括各种硬件，真的实现座舱大脑。

另外一部分，我们推多模态大模型。座舱里面我们之前做得比较多的是跟视觉相关的，DMS、OMS。接下来多模态大模型可以跟语音、自然语言结合，实际上是对DMS、OMS极大的拓展，能够全方位地感知乘客需求，识别乘客在座舱里任何场景下问的任何开放式的问题，它能够回答问题的复杂程度都是极大的提升。

此外，我们还有内容生成，文生图的秒画，包括文生视频。

驾驶方面，我们是业内最早推端到端大模型的，2022年底就做了发布，今年4月份的车展，我们也会带来基于UniAD端到端大模型的自动驾驶体验。

另外，我们也基于视频生成的技术，在去年11月的时候发布了视觉模型。这个模型可以生成各个摄像头、传感器在不同视角下的视频，并且比较精准地去控制视频生成里面的各种要素，比如说车的左拐右转，加减速，坡度，包括在各种交通标志，交通信号条件下，还有各种天气情况下生成的视频，且逼真度非常高。同时我们还可以比较精准地去控制这些视频生成的条件，覆盖更多复杂的场景。

基于这些视频，我们可以用来训练端到端的自动驾驶模型，包括测试，大幅提升训练的效率。这里面我们也看到自动驾驶和座舱的融合。驾驶员在座舱里面可以跟自动驾驶系统产生有效的互动，能够给它发出指令，去改变自动驾驶的行为。

我们对大模型的使用不仅仅限于外挂大模型这么简单，而是要对汽车的软件架构进行重构，实现端侧和云侧大模型的协同、高效的运行，包括各种数据的流转。之前商汤绝影做的比较多座舱里面跟视觉相关的，今天就要突破视觉，突破单点功能演变成多模态座舱整体产品的体验，会把我们的产品变厚，包括座舱跟驾驶的结合。

Q：请谈一下商汤近年来出海的情况，包括在推动出海国当地产业升级和促进经济发展方面做了什么样积极的作用？

王晓刚：在商汤成立之初，我们自己的定位就是一家国际化的公司。在2016年、2017年的时候，就积极地在海外拓展业务，包括日本、东南亚、中东等等，并和国外的这些大企业形成了比较紧密的合作。同时我们也积极地和当地一些科研机构、院校拓展我们这方面的合作。

2018年，商汤推动了全球高校人工智能学术联盟，包括当时的MIT、悉尼大学、南洋理工都在里面，主要是给大家建立一个在人工智能学术领域里自由交流和合作的空间。另外我们在新加坡也跟当地的高校成立联合实验室，有上百个人工智能的研究员、科学家，产出也非常好。

Q：商汤绝影是否有独立融资的计划？

王晓刚：智能汽车是商汤非常重要的一个板块。商汤作为一个人工智能平台性的公司，汽车智能化不断给我们提供创新的源动力。所以这方面我们一定会持续加大投入，推动商汤智能汽车业务的发展。至于绝影，我们从2022年开始有这样独立的品牌在，后面我们一定会想办法让它做大做强。

Q：舱驾融合对于造车成本，以及算力要求比较大，如果朝着这个方向发展会如何影响汽车整个产业链的变化和发展？

王晓刚：舱驾融合可能有两种不同思路：

一种思路是把两个域的功能实现在一颗芯片上，有机会降低20%的硬件成本，所以这是一个追求性价比的思路，能够积极地推广。

另一个思路，也有高端一些的，比如说上千T的算力。通过大算力的芯片就可以支撑驾驶跟座舱的大模型，而且在一颗芯片上驾驶的各种传感器跟舱内的传感器数据是连通的，延迟非常，能实现非常好的产品体验。

这两个思路都是有的，也不太一样，这都是行业里面非常重要的发展契机。对商汤绝影来说，我们同时具有驾驶跟座舱这两块业务，进行舱驾融合，无论是从基础软件层面，还是在产品层面，都有比较天然的优势，我们也对行业这方面的发展趋势非常期待。