专访联想集团 CTO 芮勇：智能体是具身智能的基础｜具身智能十人谈

芮勇联想集团具身智能

2024/06/12 15:40

作者丨饶舒玮

编辑丨岑峰

在辽阔的未知海域，作为首席技术官的芮勇是决定联想集团这座巨轮技术路线的掌舵人之一。

拥有七大国内外知名学会会士（ Fellow）桂冠、曾在微软工作近18年，芮勇在2016年选择了联想集团作为自己职业生涯的下一站。同年，联想集团聘用多位 AI 领域大牛，发力人工智能领域，从一家做设备的公司向一家设备+云服务的公司加速转型。联想研究院人工智能实验室开始筹备成立，芮勇也在朋友圈中广发英雄帖，招揽有识之士加入团队。

如今，从 All in AI 到 AI for all，联想集团正沿着既定道路稳步前行。在采访中，每当提到联想集团在 AI 领域的前瞻性和发展潜力，芮勇的自豪感溢于言表。比如他们很早就关注到了 OpenAI，并快速跟进了他们的研发技术；在业界还在关注大模型的时候，联想集团早已经开始了智能体的研究。

多年投身人工智能领域的经验和软硬件结合的基因给了联想集团不做盲目从众者的底气。这点从这波大模型的热潮中就有所体现。联想集团坚定地“舍弃”了公共大模型这一拥挤的赛道，转身投入更具有“私”性质的面向企业的私有大模型和面向设备的个人大模型。在大模型资源“蛋糕”不断做大的未来，为每个人和每个企业提供量身定制的服务，注定是大模型这一处理海量数据工具的价值点。

大模型做好了，那么下一步是什么？芮勇的回答是智能体。在他看来，AI发展的三部曲是从小模型到大模型，再到智能体。“智能体基于大模型而又超越于大模型，智能体同时也是离身智能和具身智能的基础。”

面对 AI 领域的下一个风潮——具身智能，芮勇的态度是积极拥抱。得益于多学科背景，芮勇在具身智能领域的研究得心应手。说到多学科背景，我们把时间拉回到上世纪八九十年代。芮勇在清华期间学习自动化控制，后赴美师从计算机视觉领域泰斗美国工程院院士、中国科学院工程院双外籍院士黄煦涛教授 (Prof. Thomas S. Huang)，从而打下了芮勇在人工智能和自动控制两个领域的坚实基础。

上世纪九十年代，多媒体检索成为当时的新兴科研领域，而芮勇则是当时全球第一批探索多媒体检索的先行者。在1998年，芮勇借鉴了控制理论中的反馈概念，通过对多媒体特征和人类感知相似度的建模从根本上打破了之前单纯依赖图像特征的多媒体搜索框架。他的两篇早期论文已经成为了这一领域的世界级经典论文：《Relevance Feedback: A Power Tool in Interactive Content-Based Image Retrieval》成为IEEE TCSVT 当年引用率排名第一的论文，《Image Retrieval: Current Techniques, Promising Directions and Open Issues》荣获JVCIR 2010年颁发的“十年最高引用论文奖”。

此外，芮勇在人工智能和自动控制两个领域还贡献了如人工智能图像与文本自动排版，图像搜索多角度特征重排序，基于多模态稀疏编码的图像搜索点击预估，相关性多标注的视频分类等开创性的科研成果。

而创新领域的下一个风潮——具身智能，刚好又是这两个领域的结合。当初跨领域研究的选择，多年后的芮勇用“幸运”一言以概之。

作为人工智能领域的研究者，芮勇一直认为现在的工作都是为了以后，一个人工智能与人类和平共处的未来。那时，人类因为善用人工智能，已经从重复性、无意义的繁重工作中得以解脱，可以更好地享受生活。

近日，雷峰网-AI科技评论有幸邀请到联想集团 CTO 、高级副总裁、联想技术委员会副主席芮勇与我们就具身智能这一主题展开讨论，同时对近年联想集团在 AI 领域的布局、未来研发方向以及人工智能行业趋势等话题进行了一次深入对话，雷峰网-AI科技评论做了不改原意的编辑：

大模型、智能体两手抓

AI科技评论：您近期的演讲中涉及智能体的内容比较多，目前联想集团对于智能体的研发投入如何？联想集团将最核心的技术投入放在了哪一块？

芮勇：如果说去年联想集团花了很多时间在看大模型的话，今年大家花最多时间看的就是智能体。我们可能也是在业界较早对智能体这一概念展开比较多讨论的企业。今年4月在上海举行的联想创新科技大会 (Tech World) 主题基本就是围绕智能体展开。现在重要的一定是智能体，因为光有大模型技术，我们觉得已经不够了，所以智能体在联想集团的研发业务中是处于一个核心技术的位置。但也不是把大模型彻底扔了，而且大模型是开发智能体的基础，所以我们两手都要抓，两手都要硬。左手抓大模型，右手抓智能体。

在我们看来，下一步就是掌握智能体几个核心技术。我觉得有几大模块非常重要，首先是智能体的大脑，也就是大模型，相当于控制中枢，所以要增强大模型本身的能力。

其次，智能体需要知道自己的能力边界。人就是一个智能体，人知道自己的能力边界。比如你问我两位数的加减法，我可以心算很快给出答案。如果遇到8位数、9位数的加减法，我会想到使用合适的工具，比如找计算器来计算，把答案告诉你。

所以，智能体一个关键的能力是对自我能力边界的认知，知道什么时候应该调用工具，调用什么样的工具。今天的大模型有时候会非常自信地告诉你一个错误答案。大模型其实不想骗你，它只是不知道自己的能力边界在哪里。

此外，对复杂任务的理解与规划也是智能体的关键能力。我们人类面对一个复杂任务，会全局地考虑问题，包括优化目标，限制条件，可能的方案。然后理出思路，面对多步骤操作会清楚先做什么后做什么，对于未知情况如何去尝试，对于多种路径如何择优。大模型本质上是在做下一个单词的预测，它很适合直觉类任务，并不适合需要统筹规划的复杂任务。

AI科技评论：在您看来，智能体与具身智能之间有什么联系？

芮勇：我认为，智能体是一个统筹的概念。智能体基于大模型而又超越于大模型，智能体同时也是离身智能和具身智能的基础。智能体既可以存在于数字空间（cyberspace），也可以存在于物理空间（physical space），和各种设备结合。在数字空间的智能体，我们一般称为离身智能（Disembodied AI）；存在于物理空间的智能体就是具身智能（Embodied AI）。具身智能包括在机器人方向的具身智能，也包括了车和其他设备。

具身智能和离身智能概念的第一次出现，是1950年前后，那时候 AI 还没有真正出现，正处在萌芽期。Alan Turing 在他那篇著名的论文《计算机器与智能(Computing machinery and intelligence)》结尾思考了未来人工智能的发展道路，一个方向是发展为能够进行像下棋类的抽象活动所需的智能，另一条方向则是为机器人配备传感器，让它们像孩子一样去接触世界，认识世界。这就是离身智能和具身智能的前身。

目前可以看到的是，如果智能体光靠一个大模型支撑是远远不够的。因为大模型本身能力有限，单凭一个大模型很难再往下发展。现在大模型就遇到了一些瓶颈，比如它对自身能力的认识很不足，对于到底自己能干什么、不能干什么、什么时候要调用工具、什么时候可以自己干这些问题都不清楚。此外，还有它的长短期记忆、对于复杂意图的理解以及分解复杂任务等等，这些都是尚待解决的问题。

AI科技评论：在研究智能体时遇到的问题对于研究具身智能有何帮助？

芮勇：因为具身智能是基于智能体发展出来的，中间很多部分和智能体是一样的，比如说他们都会有一个大模型的大脑，都会有对场景的理解和主动感知，都会有对复杂任务的理解、分解和规划，以及对知识库和工具的调用。

但是除了这些以外，具身智能还有它自己的特点，有一些新的问题要解决：

• 智能体的控制中枢部分，在原来的语言大模型和视觉大模型之外，还要加入动作大模型；

• 场景理解和主动感知组件部分，需要加入3D语义地图生成，和环境与地形感知；

• 在自主行走与操作控制上，需要视觉落脚点规划、基于强化学习的地形适应行走，以及自主定位、导航与探索；

• 具身载体和执行器部分，需要通用足式机器人和力控驱动单元。

说到载体，联想集团近日发布了通用型六足晨星机器人，这里面涉及到仿生学、物理运动等等，这些都是离身智能不太关心，但在具身智能领域非常重要的知识。此外，比如同样是对知识库和工具库的调用，离身智能和具身智能所调用的库是完全不一样的。

AI科技评论：您认为具身智能最适合的载体是什么样的？

芮勇：具身智能的载体多种多样，既可以是人形机器人，也可以也是其它形态，场景不同，载体则不同。

比如需要陪伴老人或者小朋友的场景，最适合的就是人形机器人。但像是安保、野外作业的场景，反而是多足机器人合适，因为稳定，并且载重量大。我们都知道，三角形是最稳定的结构，六足的话就是多组三角形轮流着地，能够最大程度地保证稳定性。这也是为什么联想集团选择研发六足机器人的原因。

像联想集团其他的一些产品，比如说车计算，甚至我们不同型号的笔记本电脑等等，其实这些形态也是适用于不同场景。像是电脑，我认为它是介于具身智能和离身智能之间的智能体，因为电脑里面有很多传感器、输入设备等等，所以它对环境有一定的感知和理解，其实有了具身智能一部分的能力。但是它可能更侧重于作为离身智能存在，因为在端侧的大模型是跑在电脑上的，能够使你的生活更加愉快，使你的工作变得更加有效率。

AI科技评论：从某种意义上来说，具身智能因为具有和物理环境进行交互的特点，应该是更高级的一种智能形态，您如何看待具身智能和 AGI 之间的关系？

芮勇：我觉得 AGI 跟离身智能、具身智能都有关系。有人觉得已经基本上能看到 AGI 出现了，但我没有那么乐观，我认为我们当下的技术水平离 AGI 还有距离。无论是 AGI、具身智能还是离身智能，我觉得还有好多的事情要去做。

图灵奖得主 Yoshua Bengio 所提出的五个层次 World Scope 理论给出了通往AGI的路径。

第一个层次是小数据训练小模型，过去几十年的传统方法都处于这个阶段。

第二个层次是用互联网规模的海量数据训练大模型，以GPT-3为代表。

第三个层次是从单模态到多模态，比如GPT-4o和Gemini是文字视觉语音的多模态大模型。

第四个层次是从开环系统到闭环控制，就是说考虑环境反馈并结合自身状态，给出下一步操作对环境产生影响同时更新自身状态，比如以AutoGPT为代表的智能体和具身智能机器人。

第五个层次是从单智能体到多智能体协作，也包括机器与人类的协作，由群体智能完成复杂任务，比如多智能体原型AutoGen模拟软件公司的不同职位协作从而实现高质量的代码自动开发和文档自动生成。

我觉得我们现在大概处于在第三层次（多模态）和第四层次（和物理世界的交互）位置，其实第四层次都还没有真正做到。

在我看来，如果有一个模型，它上知天文，下知地理，那只能说明它的记忆力很强，不代表它有智能。怎么样算是有智能？我认为拥有自我意识，有自我学习的能力才能称得上有智能。苹果砸到机器人头上，它能像牛顿那样悟到万有引力吗？

所以我认为，如果机器能发现人类还没发现的东西，才算真正的 AGI。机器的知识多，并不代表它就有智能。我们现在是往 AGI 的方向在走，但是离 AGI 还有距离。

联想集团的 AI 版图

AI科技评论：我们都知道，联想集团在2017年提出 All in AI 战略，又在2023年升级为 AI for all，可以看到联想集团以 AI 驱动企业智能化转型的决心。作为一家同时拥有硬件基因和软件实力的企业，联想集团在策略上对于 AI 有怎样的布局？

芮勇：我觉得策略的制定需要参考两个方向，其一是要结合企业本身的特点，其二是要结合 AI 技术的发展趋势。把这两件事考虑清楚了，企业应该怎么去做其实就很明了了。

首先联想集团在硬件设备方面，无论是前端还是后端都做得非常强大。联想集团的PC 是全球第一，平板是全球前三，手机在南美和北美成绩也不错，数据中心大概全球前五，高性能计算应该是全球第一。这是联想集团的一个特点。转变为 AI for all 的整个发展过程就是结合了联想集团上述的特点和 AI 技术的发展趋势。

其实我们很早就开始研究端侧相关的模型，这类模型能自动检测电脑是否开启高性能模式，然后去释放最大的能量，使得电脑能够满足当下的算力需求；如果判断出只是在浏览网页，则会去优化电池的使用时间。

在边侧，我们最重要的研究就是关于小样本的学习。无论是在次品的检测，还是其他方面，小样本都比大样本要难。而且次品的样本非常少，如何在小样本情况下训练好模型？这是我们研究的课题。在云侧或者是服务器集群这一侧，我们做的是一个分布式 AI 训练推理平台。所以不论是在端侧、边侧，还是在云侧，联想集团其实很早就已经下大功夫在做了，第一步以小模型为主，为之后大模型的研发埋下伏笔。

两年前 OpenAI 真正的起飞之前，我们投入了一些跟大模型相关的关键技术，比如小样本学习（few-shot learning）。像 GPT-3文章的标题是Language Models are Few-Shot Learners ，它讲的是上下文小样本学习技术(few-shot in-context learning)。在这方面他们和我们有异曲同工之妙。当时我们在做边缘侧 AI 的时候，也是同样的做法。我们在2019年就已经在关注 Open AI 这家企业，关注它所研发的大模型技术，一方面是我们自己在做小模型，另一方面也是在积累做大模型的经验。

等到 OpenAI 真正起飞的时候，我们也很快速地跟进了。在这次大模型里程碑式的浪潮中，每个企业各自拥抱大模型的姿势都都会基于各自的强项而不尽相同。如果每个企业拥抱的姿势一样，那就错了。一年多以前，我们就根据联想集团自身特点制定了目标计划。如果联想集团要做大模型的话，就要按照混合 AI 的大框架去做。

我们把大模型分为不同的类型，像是 Open AI 做的 ChatGPT ，就属于公共大模型。公共大模型，对于知识类的东西非常擅长。它在互联网上看了很多天文地理、天南海北、古今中外的书，这是它的强项。

但除了公共大模型，还有私有大模型。这类大模型一般就是用在企业内部，它通过企业内部的数据进行优化训练。因为企业内部有很多关键、敏感的数据和信息，而且要在企业内网跑，所以不可能使用公共大模型。

还有一类，就是跑在设备端的个人模型。个人模型可以很大程度上满足个性化需求，比如满足喜好的出行计划，但是公共大模型就没办法做到这样，它只能给出千篇一律的答案，完全不具有针对性。它完全不知道你最喜欢的航空公司是哪一家？喜欢上午飞还是下午飞？喜欢什么酒店？只有建立在个人信息数据基础上的个人大模型才能够为用户提供私人定制。

其实我们很早就看到有不同类型的大模型，我们把它称作混合 AI。在我们的设想中，公共大模型跑在公有云上，私有大模型跑在企业内网，个人大模型跑在个人的设备侧。

最近我看到公共大模型都开始争相降价，甚至免费使用。联想集团从以前就很清楚自己的定位，这些公共大模型就让做公共大模型的厂商去做。我们主要聚焦两类，一类是面向企业的私有大模型，一类是面向设备的个人大模型，这是我们的强项。

上述也只是我们制定大模型方案的第一部分，第二部分则是我近一年一直在强调的，重要的不是建大模型，而是用大模型，一定要有好的应用场景才能让商业模式真正落地。互联网这么火不是因为互联网建好了这么火，而是因为互联网上的应用很多，所以才红火；移动互联网也一样，AI 同理。

所以说，我们从 2017 年的 All in AI 到现在的AI for all，其中的发展历程是：最早投入研究小模型，然后开始关注大模型，积累有关大模型的关键技术，在大模型起飞后结合联想集团本身企业侧和端侧的优势进行大模型的场景化应用，这就是三部曲。

AI科技评论：从投资层面来看，联想创投也有人形机器人方面的布局，你们关心的是创业者的哪一个指标？同时，你们还看好哪些技术/产品趋势？

芮勇：过去这几年联想创投的回报都不错，他们对某一个企业和创业者的核心指标的考察非常清晰，比如会关注创业者或企业对于整个产业协作的把控力，从产品进程和技术发展两个维度进行判断，光会做产品或是光有技术都不行，创投在这两方面的平衡做得非常好。

联想创投在机器人领域已经布局了 20 多家的公司，也涵盖了很多方面，包括像核心部件、本体以及执行器。这几年联想创投主要是在移动和服务类型的机器人领域进行了投入，在人形机器人方面也有所投入。

从趋势来看，具身智能之后会发展出几个比较重要的方向，同时也是很具有挑战的领域，比如底层的通用算法和硬件平台，包括最底层这种模块化电机、电机减速器和控制器；往上细数，还有灵巧手、双臂、轮式、足式等等。如果更细分的话，机器人的电子皮肤也是进行精细操作的关键组成部分。所以，在大方向上，联想创投关注人形还有服务型机器人，同时还对很多关键的通用软件和硬件设备有所关注。

AI科技评论：您认为什么样的算法体系架构能更好地支撑大模型和智能体技术的落地？

芮勇：我觉得满足需求一定需要云边端协同的体系架构和算法平台。如果用户问百科知识类的问题，那么将问题发送到 ChatGPT 这类的云侧大模型最合适。如果用户要执行工作中的一个任务，涉及企业数据和公司业务，那么就需要运行在企业边缘服务器的私有大模型处理。如果用户需要问题涉及个人偏好和隐私信息，比如网页浏览历史、购物记录、私人文档，那么需要使用设备本地的小模型。其实这就是刚才我提到的联想集团混合式 AI 框架的理念，我们也正是以这样的方式构建企业智能体和个人智能体。这样整体 AI 工作负载增强，用户体验也好很多。

AI是工具不是威胁

AI科技评论：据了解，研究具身智能的从业者里有硬件出身的，比如机器人方向，也有 AI 背景的，您觉得这样不同背景的两拨人做事时各自有哪些侧重点？

芮勇：把具身智能给做好，必须要有这两批人。光有机器人背景的人对 AI的了解可能不那么深刻，不懂 AI 就不懂大模型，不懂大模型就不懂离身智能，自然就很难做具身智能。光有 AI 背景也不够，做AI的人基本上是搞软件出身，他们不知道如何让机器人去和环境进行交互，如何利用传感器抓回信息。所以研究具身智能需要这两批人紧密的合作。

但是研究背景不一样，侧重点自然也不一样。比如有机器人背景的人，他们会对传感器非常了解。传感器就像我们人的五官去感知的视觉、听觉、触觉等等，相当于机器人的输入。输入之外还有输出。具身智能有具体的物理形态，在物理世界里它需要去探索世界，去运动、抓取东西，这就涉及到执行器方面的知识。

而 AI 背景的人基本上是跟机器人的大脑有关系。他们就负责对上面提到的传感器数据进行分析，从这些数据中去学习，为智能体进行画像，进行复杂任务分解。比如通过这个传感器能知道环境是什么样的，是在屋子里面还是屋子外边，周围有没有障碍物等等，分析清楚之后生成一个最优的输出指令。所输出的指令再通过执行器进行自主定位、自我行走、落脚点的规划、步态动作等等步骤。这两批人都非常重要，他们的侧重点不一样而已，但是一定要相互配合协作。

AI科技评论：您认为，对于 AI 的研究来说，具身智能这个概念还能热多久？它是否会成为未来主要的发展趋势？

芮勇：就像刚才谈到的，从小模型到大模型，大模型再到智能体，智能体包括离身智能、具身智能，这一发展脉络还是挺清晰的，所以我不觉得具身智能会是昙花一现，现在具身智能确实是一个主流的研究方向。

过去机器人没有做好，是因为它的大脑不够发达，所用的模型太小，每一个都只能干一点事。现在大模型出现了以后，就会类似从猴子的大脑变成人类大脑。随着大模型和智能体的能力越来越强，具身智能也会变得越来越成为主流。

具身智能是生活和生产中一直以来的需求。最开始，机械臂在固定产线做固定动作，比如产品装配、工件焊接，我们定义为机器人1.0时代。

后来，人们对机器人发展的诉求就与运动相关，希望机器人移动起来去完成一个任务，比如设备巡检、酒店送餐。但这个任务有个前提条件，要知道环境的地图，对环境中的物体有先验知识，机器人才能在其中执行任务，我们定义为机器人2.0时代。

当大模型和强化学习技术发展以后，我们可以让机器人在未知环境中执行之前没有见过的任务，比如应急救援、野外探测，我们定义为机器人3.0时代。从机器人1.0，到机器人2.0，再到3.0，具身智能越来越聪明。而且随着技术的进步，具身智能的应用范围越来越广泛，机器人会普及到越来越多的领域。

AI科技评论：在这次人工智能的浪潮中，有没有哪些需要大家重视的问题？

芮勇：我比较关注人工智能发展带来的安全问题。现在大模型可以生成非常逼真的语音和视频，有些人就利用这点来行骗，所以我们一定要加强人工智能的安全监管，这是一方面。

另一方面，我认为在推动智能化发展的进程中，无论是具身智能还是离身智能，最终目的是为人类服务。如果发展到对人类产生威胁，或者它们的存在让人类感到被敌视，我觉得就出现问题了。

人工智能，无论如何都只是我们人类的一个工具。如果因为工具反而把人淘汰了，那么我们为什么要去做这个事情？我们希望人工智能、智能体或是具身智能，能把我们从一些繁琐的、重复性的工作里解放出来。所以发展AI不是为了淘汰人类，而是为了解放人类，让人类更好地享受生活，不能本末倒置，这样我们现在做的这些工作才有意义。

此外，在具身智能方面，我还关注到物理世界里机器人对人类的安全风险问题。我认为需要为机器人建立一套行为规范和道德准则，比如说服从人类命令，永远不能伤害人类，尽可能保护自己的生存安全等等。

AI科技评论：历史上每一种新兴技术的出现都引起很大讨论。像是 AlexNet 的出现带动了对深度学习的研究浪潮。您认为在具身智能领域，“里程碑”式的新兴技术就是什么？现在出现了吗？对这一领域，您有哪些技术期待？

芮勇：我觉得利用多模态生成式大模型实现端到端的具身智能是一个“里程碑”式的新兴技术。利用这个技术，动作(action)也被认为是一种模态，也可以转换成tokens，和语言、图像的tokens一起参与大模型的训练。

例如，去年Google发布的RT-2是个视觉语言动作(Vision-Language-Action, VLA)大模型，它能够根据用户的自然语言指令和环境的图像，直接操控机械臂完成任务。类似地，Tesla FSD之前的版本采用模块化的设计，包括感知、规划、控制等部分，而最新版的V12采用多模态大模型实现端到端的自动驾驶，从8个摄像头观察到的环境图像直接生成加速、刹车、方向控制指令。

这种端到端系统更像是人类司机，根据观察到的路况直接控制车辆。从用户反馈来看，Tesla FSD V12表现出近乎完美的驾驶水准。同时整个系统重构，原来的30万行控制代码可以减少两个数量级，极大地降低了工程开发成本。

然而，大模型这种端到端的数据驱动方法需要海量的训练数据，包括真实场景采集数据和模拟场景合成数据。即便有了海量训练数据，这种方法对未知场景和未知任务的泛化能力仍然不足。所以说，大模型是否学习到了完备的世界模型，或者说是否接近人类的认知，目前在业界争议很大。

而且现在的大模型对物体空间关系和物理世界规律的理解还比较有限，就如我们看到 OpenAI Sora 生成的违背常识规律的视频。所以，要想实现具身智能，还需要在空间理解和与三维世界互动方面取得突破。是沿着规模定律(scaling law) 发展的端到端方式的大模型路线，还是需要大模型与控制论方法相结合，才能得到完美解决方案，我们拭目以待。

人也是一个具身智能，我们既是一个智能体，又有物理的形态。简而言之，我认为，什么时候大模型驱动的具身智能能够达到人类的这种水平，我觉得真正划时代的关键点就到了。

雷峰网(公众号：雷峰网) 雷峰网雷峰网