该怎么让机器人吃下大模型？丨GAIR live

大模型机器人人形机器人

作者：任平

2024/04/16 18:09

大模型技术横空出世，无疑让机器人技术再次成为研究和产业界的焦点。

这一技术的核心优势在于，其卓越的数据处理和模式识别能力。通过深度学习与神经网络技术的不断优化，大模型能够高效地处理和分析庞大的数据集。

这意味着，机器人可以在更短的时间内学习新技能，更快地适应新任务，甚至能够在没有明确编程的情况下自主解决问题。不仅如此，在大模型的助力下，机器人的感知能力变得更加精准，这无疑将极大地拓展其应用领域，并增强其在复杂环境中的适应性和灵活性。

然而，大模型技术的发展同样带来了挑战。如何确保机器人的决策过程透明、可解释；如何让机器人真正融入开放式服务场景，这些都是亟待解决的技术难题。

最近，雷峰网(公众号：雷峰网)举办的「大模型时代，机器人的技术革新与场景落地」线上圆桌论坛，汇集了南佛罗里达大学的孙宇教授、武汉大学的李淼教授、逐际动力的张巍博士、优必选科技的庞建新博士等产研界精英。

他们的见解覆盖了从理论研究到实际应用，从硬件设计到软件算法，从感知技术到任务规划，为我们提供了一个全面而深入的视角，以洞察这一领域的最新发展和未来趋势。

孙宇教授，从机器人学的角度出发，强调端到端方法在机器人学中的挑战性，尤其是在运动规划和执行方面，真正的端到端控制尚未实现。同时他也指出，AI 大模型如 GPT-4 和 CLIP ，在机器人感知和知识应用方面显著减少了研发时间和精力，使得 Demo 制作相对容易。但关键是，机器人技术的真正落地和产品的可靠性仍是一个巨大挑战。

李淼教授，他重点关注机器人规划和执行层面，提出了利用大型语言模型来简化任务表达的可能性。同时他也指出，目前机器人领域缺乏类似于特斯拉 FSD 的统一模型，尽管数据驱动方法在机器人领域被认为是关键，但目前尚未得出明确的结论，即仅仅通过收集足够的数据就能解决所有问题。

张巍教授，他讨论了端到端方法和分层方法的优劣，强调端到端方法不仅仅是架构问题，更是训练流程。他认为，未来机器人的发展可能会采用类似 ChatGPT 背后的 MOE 模型，由多个专家的小模型组成，通过 agent 连接。同时他也指出，大语言模型在决策层面上有所帮助，但对于具体的运动控制，仍然面临挑战。

庞建新博士，是从 AI 领域转向机器人研究的杰出代表，他强调，AI 大模型在机器人领域最有价值的部分，是知识推理能力和挖掘事物关系的能力。同时，他提出了整合大脑、小脑与机器人本体之间的工作，以及如何将新型传感器有效利用到机器人系统中的问题。

以下为本次圆桌对话全文（经编辑）：

01 嘉宾介绍

孙宇：欢迎大家齐聚线上，也感谢雷峰网的组织。我相信大家和我一样，都对接下来大模型+机器人的讨论充满期待。在开始之前，请大家介绍下自己。

李淼：大家好！我是李淼。我本硕毕业于华中科技大学机械工程专业，博士有幸在瑞士洛桑联邦理工学院（EPFL）与 Aude Billard 教授共事，致力于机器人技术，特别是模仿学习领域的研究。

这与我们今天的讨论主题息息相关。

在本科阶段，我的研究重点偏向于建模和规划。随着时间的推移，尤其是在攻读博士学位期间，我开始转向数据驱动的研究方法。在这一时期，我还与孙宇教授就抓取（grasping）领域的多个问题进行了深入讨论。

2016年之后，我选择回国并尝试创业。我们的目标是打造一个机器人操作系统，旨在整合机器人的设计、感知、规划和执行过程。尽管当时的整合主要集中在传统的软件层面，以及使工业软件的 API 更加易于使用，但这一工作我们坚持了许多年，并最终在多个场景中实现了落地应用。

同年，我也加入了武汉大学，并在工业科学研究院领导了一个机器人实验室。

我们专注于将机器人模仿学习应用于不同场景，尤其是在工业和医疗领域。在这个过程中，我们逐渐意识到，机器人任务规划这一高层次的问题缺乏明确的定义。我们通常称之为TAMP（Task and Motion Planning），即将任务规划、任务和运动规划混合在一起。但在实际应用中，我们发现很多任务难以用具体的方式描述，这带来了不小的挑战。

随着大型语言模型的出现，我们开始思考：为何非要在向量空间中规划任务呢？例如“拾取与放置”任务，或者在抓取过程中，只需提供坐标，就能很好地解释任务。但在现实世界中，用口语描述任务可能会更简单。因此，我们开始将实验室的部分工作与大型语言模型相结合，从感知、规划到控制，这一领域的进展非常迅速。

我们的工作仍在进行中，每天都有新的发现和学习。

张巍：大家好！我是张巍。我在中科大完成了自动化专业的本科学习，之后在美国继续深造并从事教学工作十余年。2019年，我选择回国，并全职加入了南方科技大学。

目前，我在南方科技大学担任教职，我的实验室叫机器人控制与学习实验室（CLEAR LAB），全称为 Control & Learning for Robotics and Autonomy，关注机器人控制理论与学习算法方面的研究。

我早期的研究重点是最优控制和运动规划，随着机器人硬件的成熟，机器人领域的研究点日益增多，我的研究重点放在人形机器人，涵盖了感知、规划、控制以及强化学习等多个相关领域。

逐际动力成立于2022年，我是创始人，主要从事通用机器人的研发，目前的重点在于人形机器人的开发，同时也有四轮足。

庞建新：大家好！我是庞建新，来自优必选科技。我的学术和职业道路可能与在座的各位有所不同。

我在中科大攻读了电子信息工程的本科学位，那时我就已经开始涉足人工智能相关的工作。我的本科毕业设计专注于语音信号处理，包括早期的语音识别技术。在中科大继续深造期间，我选择了计算机视觉作为我的硕士和博士研究方向，从事图像处理和分析的研究。

从本科时代起，我就一直致力于探索如何将AI技术与硬件相结合。

在硬件性能有限的情况下，例如频率仅为66兆赫兹的处理器上，我尝试运行语音相关技术。在研究视觉技术时，我也在思考如何让视觉算法在低算力硬件上运行。

在我开始职业生涯时，我加入了一家外企，继续探索如何将视觉算法应用于低算力硬件。我记得非常清楚，我们曾尝试在只有100兆赫兹处理器的数码相机中实现复杂的算法。在深度学习技术广泛应用之前，我致力于开发小型算法，解决实际问题。

2011年，我加入了中国科学院深圳先进技术研究院，开始探索如何将人工智能技术与机器人技术相结合。

我们团队孵化了多个与机器人相关的项目，并与腾讯合作，推出了全球较早的基于云的桌面交互式机器人产品。2011年，我们的产品发布后，受到了极大的关注。随后，我们继续开发面向交互的智能机器人产品。

2015年初，我加入了优必选科技。那时公司还处于初创阶段，研发团队仅有十几人，刚拿到A轮融资不久。

所以那时我加入优必选科技后，与CTO熊友军博士一起负责整个公司的研发工作，并建立了优必选研究院。我们还规划了人形机器人的整体布局，成为国内最早从事人形机器人研发的企业之一。我们也努力推动产业化进程，从最初的小型人形机器人开始，到大型人形机器人的研发和应用落地。

在这个过程中，我得以将软硬件结合的能力、人工智能技术应用于机器人技术。同时，我也学习了许多新知识，包括机器人控制、运动规划等。

我认为，现在的机器人和大型模型研究已经不再局限于单一领域，而是涉及多个领域的知识。例如，大型语言模型已经从基础的语言知识扩展到多个领域，覆盖了从感知、理解、任务拆解和规划等多个层面，已经不再是单一技术。

在当前阶段，我认为既有挑战也富有研究价值。我们团队在优必选科技已经完成了多轮机器人的研发，并探索了如何将各种技术应用于机器人之上。

我们遇到了很多挑战，但现在我们有了新方向，无论是在感知、规划还是控制方面，新技术的出现都将为人形机器人产业的发展带来巨大变化，希望继续抓住这个机遇。

孙宇：优必选科技自2016年起就开始研发人形机器人了，对吧？

庞建新：优必选实际从2012年成立以来就投入人形机器人核心技术以及产品的研发。2016年，我们推出了大型人形机器人Walker的原型机。2018年，我们在CES展（国际消费类电子产品展览会）上首次发布了第一代Walker；到了2019年，我们推出了第二代Walker；2021年我们推出了Walker X；2023年我们研发了工业版人形机器人Walker S。到目前一共是五次迭代。

孙宇：那么，您能介绍一下优必选科技目前的人形机器人发展到了什么程度吗？你们主要面向哪些应用场景？

庞建新：优必选科技在人形机器人领域的研究经历了多个阶段。最初，我们的人形机器人更多用在服务场景，如导览接待、教育科普等。但从2022年开始，我们开始认识到，在工业制造场景中，人形机器人可能有更大的应用潜力，有可能比商用服务场景更早实现落地。因此从去年至今，我们的重点放在了探索人形机器人在智能制造场景中的应用落地。今年年初，Walker S就在蔚来汽车总装车间进行实训。这是全球首个人形机器人在汽车工厂流水线与人类协作完成汽车装配及质量检查作业的尝试。

02 全球视野下的突破

孙宇：非常感谢各位的分享。我们刚才讨论了AI和机器人领域的发展，特别是大语言模型和基础模型的出现，极大地提升了 AI 的能力。这似乎预示着机器人技术再次成为研究和产业界的焦点，因为人们开始认识到 AI 的能力已经能够让机器人执行一些非常重要的任务，比如服务机器人和工业机器人。

我认为我们可以利用各自的背景和平时观察到的趋势，为观众介绍一些在国内外学术界和工业界在机器人方向上取得的显著成就，以及这些成就对整个领域发展的推动作用。

李淼：在当前自媒体高度发达的时代，我们经常会在雷峰网等平台上看到关于人形机器人、AI 等相关领域的最新动态。这些内容通过各种渠道广泛传播，让我们对这一领域有了更深入的了解。

对于我个人而言，我关注的是机器人领域的周期性发展，这是一个循环往复的过程，非常有趣。

回顾庞建新博士之前提到的通用与专用机器人的话题，我记得在2011年参加 IROS 会议（国际智能机器人与系统大会）时，我们讨论过所谓的灵巧手（dexterous hand）的问题。

当时，许多人认为灵巧手并没有实际应用价值。我记得 Matei，也就是 GraspIt 软件（https://graspit-simulator.github.io/）的创作者，曾说过一句著名的话：两指夹钳（Gripper）可以解决人类社会95%的问题，剩下的问题即使有灵巧手也难以解决。

然而，十年后的今天，社会的观点发生了巨大变化。人们开始认识到，拥有类似人类的灵巧手，尤其是具有高度灵活性的灵巧手，将会改变很多事情。

在2010年至2015年期间，我尝试了许多种灵巧手，相信孙宇教授也有类似的经历。我们使用过Barrett Hand、 Allegro Hand 、Shadow Hand 、iCub Hand 等，但它们的功能在当时受到了硬件和仿真算法的很大限制。

现在，人们可能会过分强调人形机器人与大模型结合的优势，而忽略了最底层的根本问题，例如在grasping 的Contact（接触）方面从未被提及。

第二点，我们看到大模型本质上带来了什么改变？它改变了我们对任务表达的理解。

传统的机器人任务表达往往简化为轨迹、pick and place 或者 force / impedance control 等形式，但任务表达本身并没有一个清晰的定义。随着大语言模型的引入，我们可以将自然语言这一维度加入到任务表达中。

然而，如果我们回顾历史，早在2010年，人们就已经使用知识图谱等工具进行任务表达。在欧盟，过去我参与了两个相对知名的项目：RoboEarth 和 RoboHow。

RoboEarth 的目标是将网上的知识整理成一步步的指令，供机器人执行。

RoboHow 则是2014年欧盟机器人项目的佼佼者，它将网上的视频、人的视觉强化学习、Wikipedia的知识整合到一个庞大的知识引擎中，进行基于逻辑的推理。

今天的大语言模型从更高的维度、更大的数据维度整合了这些知识。我们期待这次能够在任务表达上实现重大突破。

孙宇：这确实引发了一个问题，灵巧手究竟能有什么用处？

我们当时讨论了手内操作（in-hand manipulation）的重要性。如果没有手指，就无法实现手内操作。因此，当时确实存在一些不确定性，人们不清楚这些手在实际应用中能达到什么样的程度。但是，这种研究是逐步推进的，李淼老师的观点非常正确。

张巍：首先，我依然认为两指夹持器（2-finger Gripper）能够完成许多任务。这个观点至今仍然成立。

正如我们所见，斯坦福大学的炒菜机器人Mobile Aloha ，尽管只是一个两指夹持器，但它已经能够完成许多工作。只不过，它还不能自主地完成这些任务。从夹持器的角度来看，我认为两指夹持器确实能够做很多事情。

我想补充一下刚才的讨论，提到了大模型和当前机器人技术的浪潮，以及这些浪潮中的代表性工作。我认为，大家都像获得了一个新工具，虽然对这个工具还不太理解，但它带来了新的希望。目前我们还谈不上取得了什么成就，我更倾向于像李淼老师那样回顾历史，而不是只关注现在流量高的工作。

当然，现在有很多引人注目的工作，比如谷歌的 Code as Policies，还有李飞飞等学者的 Vox Poser，以及前段时间非常火爆的 Mobile Aloha 。这些工作吸引了很多人的关注，让人们对操作和大模型结合的可能性有了新的希望和思考。不过，从本质上讲，这些进展可能都不太实质。

我个人比较喜欢的是 diffusion policy，这是去年 RSS 会议（Robotics: Science and Systems）上的一个工作。

我之前在阅读李淼老师的一些采访时也提到过这些讨论，我认为这是非常好的工作。关于如何使用生成模型进行模仿学习，这为我们提供了新的思考方向。

但我更想讨论的是，从具身智能和人形机器人的交叉领域来看，有几种不同的切入点进入这个领域：

一种是AI领域的人士，他们认为 AI 找到了一个新的应用场景，即人工智能的一个新载体；

另一种是我们这些早期从事机器人学的人，我们看到AI提供了新的工具。

这两个角度是不同的。我们真正从事的是机器人学，而不是因为大模型的出现才转向机器人学。当大模型或其他新工具出现时，我们发现可能有新的方法可以解决以前难以解决的问题。

从人形机器人的角度来看，我在这个领域研究的时间相对较长，与庞建新博士等学者有过交流甚至合作。从这个角度来看，我认为确实有一些非常重要的历史性成就。虽然这些成就可能不是现在最受媒体关注的，但我还是想和大家分享一些我认为比较关键的实质性进展。

对于人形机器人，我并不认为它的开发是一项难以逾越的挑战。它本质上是一个极其复杂的工程项目，关键在于硬件系统和软件算法之间需要紧密耦合并进行迭代。

难点在于，我们无法预先知晓硬件的性能如何，硬件本身的开发已经是一项艰巨的任务，而我们也无法确定其性能是否达标。同样，控制算法的优劣也无法提前判断，我们需要一个优秀的平台来验证这些算法。

这两个要素相互依赖，却往往难以同步发展，就像左脚和右脚的步伐总是需要交替迭代。

这导致在2012年之前，硬件资源极其匮乏，没有足够的时间和机会去迭代和完善软件算法。因此，那时我们使用的都是非常基础的算法。

直到2012年，随着 DARPA Robotics Challenge（DRC）等项目的推进，以及 Atlas、Cassie等力控机器人的发展，我们开始看到了硬件的发展，这使得软件算法得以逐步向模型预测控制（Model Predictive Control, MPC）等更高级的控制框架靠拢。这样的硬件迭代为整个领域奠定了基础，为软件开发提供了一个更为坚实的框架。

随后，从2022年开始，包括特斯拉做人形机器人，硬件的大量统计数据开始出现。

这个过程中，我认为最关键的两个工作。

一个是 Patrick Wensing 在MIT的工作，也就是他在2017年发表在TRO的关于QDD的论文（Quasi-Direct-Drive，准直驱关节)。

这种准直驱关节设计虽非最完美的方案，但它极大地推动了整个行业的发展，现在，许多双足机器人都采用了QDD方案。这种硬件的可用性至关重要，而且大家可以迅速收敛到很多算法的迭代，这个是至关重要的。

另外， Patrick Wensing 和他的学生2018年发表在IROS上的关于 Convex MPC 的论文也值得一提。这篇论文后来成为了 MIT 开源项目的一部分，为软件算法的迭代提供了重要的起点。

现如今，四足或双足式机器人的控制变得可能，吸引了更多人加入到这个领域，逐渐形成了现在的社区，并推动了像reinforcement learning 这样的工具的发展。

这一成就不仅在当时是一个标志性的进展，而且对后续的研究和发展产生了深远的影响。

庞建新：我的研究起点是AI和视觉感知。在我看来，尤其是大型模型出现之后，有几个层面对我影响颇深。

首先是多模态感知技术。

过去我们开发的许多机器人在决策方面面临一个重大问题：如何整合各种信息？

虽然我们编写了大量的规则，但是从视觉感知到语音感知，获取的信息往往是孤立的，难以将多维度信息真正融合起来。

随着大模型的出现，我们有可能将环境信息、历史信息、上下文信息、语音信息，甚至个性化属性等各类信息整合起来，以帮助机器人进行统一的决策。这使得机器人具备了一种综合感知外部环境的能力，类似于人类的多维度感知，这对机器人而言极为重要。

这是一个实际的进步，例如VoxPoser这一工作让我感到非常兴奋。通过人的干预，机器人能够处理之前未处理过的任务，这大大提升了机器人的智能水平。这为我们提供了一个很好的思路，即如何利用大型模型中的推理和知识逻辑。

我特别关注的第二个层面是运动规划。

无论是通过学习驱动(数据驱动)的方式，或者是模型驱动的方式，归根到底是如何去做运动？

过去，我们已经进行了许多基于模型的运动规划工作，但我想提出一个问题：为什么我们需要采用数据驱动或学习的方式来进行规划？

目标是实现大脑、小脑与机器人本体之间的真正连接。

传统上，研究大脑的是一个团队，研究小脑的是另一个团队，而电机和硬件的开发则由第三组人负责。这些团队之间的工作往往是孤立的，缺乏有效的整合。我认为，我们需要解决的一个问题：包括如何将这些孤立的系统整合起来。

尽管目前人形机器人系统已经取得了一定的进展，但我们的控制系统、决策制定、任务规划以及运动控制等方面都还有待完善。整个系统目前还处于一种拼凑状态，我们需要找到一种方法，可能是基于学习或数据驱动的方法，来将这些系统串联起来，形成一个连贯的主线。

在当前阶段的人形机器人发展中，我们见证了众多新型传感器的涌现。这些传感器包括力觉传感器（比如一维力还是六维力传感器）、惯性传感器，以及皮肤般的触觉传感器等等。

关键在于，我们如何有效地利用这些传感器，使它们与机器人的运动控制、决策制定、任务规划和动作规划有机地结合起来。这是一个极具研究价值的领域。

比如说，触觉在许多应用中都至关重要，无论是在抓取、安全还是人机交互方面。然而，目前我们尚未能够建立起触觉与控制之间的高效系统。

作为从企业角度出发的研究者，特别是从计算机视觉领域转向机器人学的人，我倾向于从系统的角度来思考问题。我更喜欢从整体上考虑如何将各个部分有效地连接起来，而不是仅仅关注单一的技术或方法。

孙宇：非常感谢您对多模态特性的讨论，这确实是一个至关重要的领域。随着像 CLIP 这样的模型的出现，我们现在能够更有效地将不同类型的模型和信号融合到一个统一的表示空间中。

这些模型能够将来自不同源的信息，如声音、视频以及其他传感器信号，甚至是触觉信号，整合到一个统一的嵌入空间中。这种能力对于机器人的运动和服务器方面的应用是非常有价值的。

CLIP 模型的出现似乎在许多实验室激发了对多模态研究的兴趣。这些研究不仅关注声音和视觉信号的结合，还探索了如何整合其他类型的传感器数据，如触觉等。这确实是一个挑战，因为机器人领域的硬件正在迅速发展，新的传感器不断涌现。

人类的感觉能力是相对稳定的，从出生到现在，甚至几千年前，我们的感觉方式并没有太大变化。然而，机器人的硬件和传感器技术变化迅速，今天使用的传感器可能明天就会被新的技术所取代。

这意味着我们今天收集的数据可能在未来变得无用，因为与新的传感器相关的数据可能会使旧数据过时。因此，我们需要不断地收集新的数据来适应这些变化，这是一个非常有趣的挑战，也是这个领域独特的研究课题。

03 从理论到实践

孙宇：如何从零开始构建并部署一套高效的机器人软硬件系统？在这一过程中，我们面临哪些技术难题，又是如何一一克服的？

李淼：实际上，我并没有完整地构建过一个人形机器人。最近，我们才开始了一个月的项目，在湖北，我们获得了湖北省一个重大项目的支持，目标是构建一个具有高爆发动力模态的人形机器人。

在整个设计过程中，我们始终围绕着机器人系统的概念进行。无论是人形机器人、四足机器人，还是工业中使用的抓取工作站，本质上它们都是机器人系统。

作为机器人系统，其核心是完成给定的任务要求。我们如何设计一个更有效或更优化的系统来满足这些任务需求？这与 Matt Mason 对机器人的一般定义相呼应，即机器人是为了实现特定任务而设计的系统。

根据系统理论，一个系统由三个主要要素组成：目的或功能、元素（包括传感器等）、以及元素之间的连接。

如果我们将这个问题抽象化，那么输入就是所有传感器的数据，输出则是电机的动作。传感器和电机之间的连接通过各种结构设计来实现。

无论是汽车、哪吒还是人形机器人，都是同样的原则。

但挑战来自于工程实践中的权衡，以及在科学问题上的有效选择。

例如，在当前的人形机器人中，如何选择最优的传感器组合？

如果我们不考虑预算或任务要求，理论上是越多越好。我在最初进行示范学习时也有同样的困惑：为什么我们只使用一个力传感器而不是十个？或者在每个部位都使用触觉传感器？这样任务信息不是更丰富吗，我对任务的理解不是更深入吗？那么学习出的结果肯定会更好。为什么只使用一个？

比如只用一个位置传感器或只用一个视觉传感器？在人形机器人上也是如此，到底多少个传感器是最合适的？或者说，是否存在一个最合适的数量？

我认为，这取决于人形机器人的具体工作目标。

例如，在某些场景中，可能根本不需要视觉传感器。

在工业场景下，如果每个物体的位置都是固定的，那么为什么还需要视觉呢？我只需要专注于执行任务即可。

因此，这又回到了我们之前讨论的专用与通用的悖论。

人形机器人是否是工业中最好的解决方案？我对此一直持怀疑态度。我认为它可能不是最终的解决方案。

在工业上，可能更强调的是专属性、分工和协作的概念。在具体设计上，我们在感知层面可能已经做了很多工作，涉及到算法层面的问题，如何选择传感器，以及在规划层面的探讨，包括我们之后可能还会讨论的规划和执行层面的问题。

从我的角度来看，目前我们最缺乏的是设计层面的创新。

当我们给定一个任务，比如让机器人在家做饭，什么样的机器人设计才是最优的？我们是否应该选择人形机器人、轮式机器人，或者是安装在厨房墙上的机器人，又或者是能在家里飞来飞去的机器人？

目前还没有明确的答案。

我们往往只是基于个人喜好，认为人形机器人看起来不错，于是就模仿或借鉴现有的设计，稍微改进性能，制作出一个能运行的原型。但这种做法实际上并没有太大意义。

我们应该深入思考更根本的问题，如何通过学习和进化来实现最优设计？能否像生物进化一样，仅给定环境和演变规律，让机器人自然演化出最适合的形式？在我之前教授的一门机器人课程中，有学生提出了这样的观点，这让我感到非常震惊。

以手为例，不同的手可能适用于不同的任务，比如搬运大石头或绣花。从同一对无指手出发，它们是否会根据任务的不同而演化成完全不同的夹持器？这是目前设计中让所有人困惑的问题。大多数人在某种程度上都在进行复制和粘贴，而不是深入考虑任务对设计的影响。我们认为这是一个重要且困难的问题。

另一个我们在设计中考虑的问题是触觉传感器。在触觉传感器的设计中，一个重要的部分是如何选择合适的敏感材料。

我们通常基于现有材料的性质进行选择，如果它们有效，我们就使用它们。但这并不一定是最好的选择。我们需要什么样的灵敏度？我们需要什么样的敏感度曲线？我们能否通过这样的曲线，利用AI的方法，找到最适合我们功能需求的材料？我们发现，这一点正是最传统且最稀缺的领域之一。

如何有效地将数据驱动的方法引入到传统系统设计中，尤其是在硬件设计方面，这是我一直在探索和合作的方向。这也是我目前感到困惑的地方。

孙宇：确实，每年的ICRA（国际机器人与自动化会议）和IROS（国际智能机器人系统会议）上，都有许多关于硬件设计的论文。近年来，一些实验室开始利用强化学习或其他学习技术来进行优化，以产生更为优化的机械手设计。

然而，我还没有看到有人根据实际需求来决定传感器的选择。我看到了一些关于材料的研究，但是如何根据需求来选择最合适的传感器，这一点似乎还没有得到足够的关注。

这是一个值得进一步探讨的领域，我们期待未来能看到更多相关的研究和创新。

李淼：我注意到宋舒然团队曾经采用优化方法来设计指尖表面，这是与传感器设计较为相关的一个实践案例。然而，对于更广泛的、系统层面的传感器设计，尤其是涉及到材料科学方面的，似乎还没有太多的进展。

孙宇：确实如此，目前的研究和开发主要集中在传感器的具体布局，例如光电传感器的放置位置，或者机械臂关节中透镜的设计等。

张巍：关于从零开始构建机器人软件系统，我非常赞同李淼老师刚才的观点。

我认为，机器人本质上是由一系列关节连接而成的。因此，构建机器人系统的关键首先在于理解这些关节。

关节内部包含了许多复杂的机制，如电机、本体传感器等，这些都是控制关节运动的基础。每个关节都可以视为机器人最小的运动单元，它提供两种基本功能：

一是提供运动，即关节转动的角度；二是在腿式机器人中，关节更多地被视为提供力的单元，能够快速响应给定的扭矩要求。

因此，构建系统的首要步骤是深入了解这些核心功能和组件，然后精通关节的设计，以达到极致的性能要求。这是构建机器人的第一步。

接下来，无论我们设计的是什么样的机器人，本质上都是通过结构件连接起来的一系列关节。在这些关节中，我们布置传感器，并进行运动控制。在我看来，运动控制本质上是关于所有关节的协同工作。每个关节提供独立的运动单元，而整个系统需要这些关节之间的协同。

目前，运动控制技术已经相对成熟，许多库和工具都已经非常完善，计算速度也很快。过去，运动控制是一个相当复杂的问题，但现在，我们主要关注的是如何让关节之间的协同工作更加流畅稳定，以及如何通过运动控制器来实现这一点。

早期的机器人通常采用离线编程或示教编程的方式，事先规划好动作，然后在工业环境中重复执行，这种方式不需要与环境进行交互，因此相对成熟。

然而，最具挑战性的部分是运动不能事先被编程固定，而需要根据实时感知的环境情况来决定如何响应。这是AI可以发挥重要作用的前沿领域。

近年来，AI在姿态识别、抓取识别等方面取得了显著进展，能够实时处理非预设的任务。而大型语言模型则在场景语义理解和规划方面取得了进展。技术突破的难点在于后期的感知和规划。

对于早期工程的技术难点，我认为主要集中在关节的内部设计上。如果要给出建议，我的原则是，如果你不确定自己是否有能力从零开始构建，那么最好不要自己做。最好是购买市场上已有的成熟产品。如果实在没有合适的选择，再考虑按照前面提到的方法自行开发。从头开始构建整个系统是一个漫长且复杂的过程，需要跨团队的协作。

在讨论机器人技术落地的过程中，我们不得不面对一个现实：打造一个稳定可靠的机器人极具挑战性。

实际上，将机器人从概念转变为实际应用的过程充满了困难，这种挑战之大，以至于许多人对机器人技术的落地持谨慎态度。

他们认为机器人技术难以实现商业化应用，这种观点并非完全没有道理。

我认为，这并非技术本身的局限，而是目标设定的问题。关键在于，我们是否能够准确识别成熟技术的边界。许多问题本质上属于探索性质，正如我们今天讨论的内容，大部分都属于探索范畴。探索是发散的，我们无法预知最终能否找到解决方案。

制作一个 Demo 相对容易，但要实现技术的真正落地则难度极大，两者之间的差距可能非常巨大，你可能需要投入绝大多数精力来提高产品最后的可靠性。制作一个Demo可能只需要一次成功，但产品需要持续稳定地提供功能。这两者之间的区别非常明显。

Demo在学术界可以就是一个可接受的结果，而在产品界，它只是一个起点。这是我们需要理解的基本逻辑。

孙宇：确实如此，我们每年举办的 Robotic Grasping and Manipulation Competition，就能清楚地展示出论文中提到的成功率在实际应用中的表现。

你可以看到，实际中的表现与论文中描述的百分比之间存在哪些差异。在竞赛中，许多实验室还需要搭建各种灯光环境，这些环境在实际应用中可能并不那么可靠，这些现象非常有趣。

庞建新：这个问题确实非常有趣。正如张老师和李淼老师刚才所讨论的，答案已经相当明确：不建议从零开始打造任意类型的人形机器人。

因为机器人与其他产品有所不同，它需要多个领域的专家共同协作才能成功研发出来。

正如我们之前提到的关节技术，它本身就不简单。然后还有本体控制、上层感知，以及各种电子器件和传感器。处理器也可能涉及多个，有的偏重AI，有的偏重控制。

所以，正如两位老师所建议的，尽量不要从零开始制作一个人形机器人，因为这需要一个跨领域的专家团队才能完成这项工作。

这也恰恰是人形机器人的魅力所在，它是一个高效的跨领域专家团队共同完成的项目。

无论你是否有一个明确的目标，或者你只是想复现当前人形机器人的水平，无论你的目标是面向某个工业场景还是服务场景，实际上你需要面对的问题都是类似的。

无论是硬件问题、软件问题、AI问题还是传感器问题，解决这些复杂系统的挑战都是不可避免的，因此这并不适合单一领域的专家或小团队来承担。

可能会有一些聚焦某一个领域的尝试，比如专注于控制部分，那么可能会通过外部合作的方式来获取相应的硬件。

如果是一个专注于硬件的团队，那么可能会寻找一些专注于 AI 的团队来进行合作。

这是基于我自己的理解，也是我多年来从事机器人研发工作的一点小体会。

孙宇：关于团队组建，您能否大致估计一下，一个致力于研发人形机器人的团队需要多少人力？比如在中国一些知名的公司，资金和人才都不是问题。那么，这样的团队应该由哪些方面的人才组成？需要多少人才能做好这方面的工作？

庞建新：我认为现在的问题不是资金的问题，也不是人力的问题。从全球范围来看，成功研发过人形机器人的团队有多少？

人形机器人的研究投入是比较大的，国内很多高校受到科研经费的限制，如果没有经费支持，就无法进行持续研究。最近这一两年，一些高校才开始获得这方面的投入。

当然，在美国，研发人形机器人的团队也不多，获得政府资金支持的团队更是少数。欧洲除了几个知名的团队外，全球真正从事人形机器人研发的团队并不多。

我认为现阶段不是投入多少资金就能成功研发出人形机器人的问题。如果再过五年或十年，我们积累了足够的人才，硬件技术开始收敛，标准化，各种模块也逐渐成熟，那时制造人形机器人的门槛可能会降低。但到目前为止，制造一台样机的团队仍然不容易，做一台软硬件都可靠的人形机器人就更难了。

孙宇：明白了，非常感谢。从产业界的角度来看，这个挑战有多大？

庞建新：制作一个Demo可能只需要找到各个领域的一两个专家，再加上几个工程师，就可以完成。但如果要面向实际应用场景，做到可靠和稳定，那还有很长的路要走。

04 AI大模型的利弊

孙宇：接下来，让我们继续讨论大家刚才提到的AI大模型或者是基础模型（foundation model）的最近进展。特别是GPT-4、CLIP 等模型的出现，它们在感知（perception）和知识（knowledge）方面的应用，大大减少了研发所需的时间和精力。

大家可能对这些模型在不同领域的应用已经相当熟悉。能否分享一下您对这方面的理解和感受？

特别是哪些大模型对机器人学领域尤为重要，无论是在感知、决策，还是人机交互方面，大家认为目前还缺少哪些元素，以及未来需要在哪些方面进行提升？

李淼：我们团队的研究中，我们主要关注的是规划和执行层面，而在感知方面的工作相对较少。在实际应用过程中，我们倾向于将语言大模型视为任务推理和表达的工具。通过它，我们可以将复杂的任务分解为一系列子任务或子目标。在今年5月份的 ICRA（国际机器人与自动化会议）上的相关研讨会上，我们将与香港中文大学的团队合作，探讨这一主题。

我们将大任务拆分为多个子任务或子目标，在子任务层面，我们使用视觉语言模型来识别对应的物体状态。在这个过程中，我们结合了传统的规划语言，如PDDL，试图构建一个逻辑树。基本上，我们分为三层：任务规划层、子任务规划层，以及底层的执行和控制。

在子任务规划层，我们会使用VR、机器学习等技术。

在执行和控制方面，我们会逐渐采用所谓的缺陷策略（deficient policy），尤其是在执行具体任务，如拿起苹果或咖啡的轨迹规划上。

早期我们可能更多地依赖于演示学习和 GMM 来表达轨迹。但现在我们发现，在社交学习中，为了更好的泛化性能和与 VR 的结合，我们逐渐采用缺陷策略，因为 GMM 需要将轨迹表达为向量空间，而我们无法仅通过图像直接得出关键角度。

在一些特定场景下，如使用机器人进行超声检查或力控打磨过程中，我们会将力觉、触觉等信息引入到缺陷策略中，以执行任务。

目前我们所缺乏的，本质上是希望有一个统一的模型，类似于特斯拉的FSD。左侧是所有传感器的输入，右侧是电机的输出，输入和输出非常具体。我们希望一个网络能够完全实现端到端的功能。

但目前在机器人领域，我们还无法做到这一点。我们只能在一些非常小的任务中实现端到端的网络，但在泛化到更广泛的任务时，我们发现这是不可行的。

这可能仍然是一个数据问题，就像在自动驾驶领域一样。但在机器人领域，尽管主流观点倾向于认为数据是关键，但我们尚未得出明确的结论，即仅仅通过收集足够的数据就能解决所有问题。

然而，目前大型研究团队和创业公司都在朝着这个方向努力，寻求创造更经济高效的数据采集方法。例如，使用 Aloha 等方法可以低成本地进行演示或仿真，甚至通过动作捕捉技术来收集数据，这些都是为了高效地采集大量数据。

在模型层面，我们可能更多地尝试将自动驾驶领域的逻辑适配到机器人中，提出了所谓的基础模型（mediplation foundation model），包括操作、导航和感知的基础模型，并试图将它们整合应用到机器人中。在实际测试中，我们也可能会逐步将自动驾驶领域的计算能力转移到机器人领域。

我们观察到，在规划层面，大模型的使用依赖于更强大的计算芯片，可能达到每秒10次的频率。在运动规划层面，使用VIM技术可能将计算频率提升至每秒百次。而在最底层，如运动控制、模型预测控制（MPC）或力控制，甚至包括机械臂的稳定性，我们可能需要达到每秒500到1000次的频率。总体而言，我们仍然会遵循传统的分层控制策略。

但是否能够开发出一种网络，能够同时实现规划、执行和控制这三个层面的功能？

正如我们从 OpenAI 发布的 Figure 人形机器人的视频中看到的，其中仍然存在“行为选择”的问题。

Figure 视频展示：https://www.bilibili.com/video/BV16u4m1M7bL/

这一层的选择机制令人困惑，不确定是从神经网络中自动进行选择，还是在不同层之间会有一个链接层来进行选择。

我相信，在不久的将来，可能在今年年底之前，机器人领域的整体路线将有一个非常明确的答案，即端到端的方法是否能够解决机器人领域的所有问题。

这可能是所有想要进入这个领域的人需要快速决定的问题：要么专注于端到端的解决方案，要么专注于其中的某一个特定点，如上层的任务规划、中间的运动规划，或底层的传统控制。最终，所有这些都将融入到一个更大的网络中，形成一个通用的 pipeline 。

孙宇：端到端的方法确实颇具挑战性。在机器人学中，端到端通常是指从视觉输入开始，例如图像识别抓取点。

但实际上，这并不是完全的端到端，因为最终还需要运动规划的参与。因为你需要进行碰撞检测、避障和运动规划。如何让夹持器正确地抓取物体，以及如何控制夹持器的开合，实际上并没有实现真正的端到端。

李淼：关于这个问题，我想补充一点。在我读博士期间，我们收集了大量的关于阻抗控制（impedance control）的数据。我自己收集了大约 40 万个不同的抓取样本，并使用数据驱动的方法制作了一个非常好的控制器。

但后来我意识到，在抓取任务中，我们可能需要的数据量还不够。

如果我们能够收集到足够多的数据，比如 100 亿个抓取样本，那么所有我们之前讨论的碰撞检测、手指约束，甚至包括更传统的摩擦约束（friction core）以及力控制（force control）等，这些约束本质上都会在我们收集的大规模数据集中隐含地包含进去。

这样，我们就有可能实现真正的端到端控制。这只是一个假设，我提出来与大家分享和讨论。

张巍：在讨论大模型与机器人结合的话题时，我认为主要有两种思路：一种是端到端的方法，另一种是分层的方法。

端到端的代表是 RT 系列，它们通过在厨房环境中使用机器人收集数据，最终希望能够实现直接的控制。

然而，目前来看，端到端方法的扩展仍然是一个挑战。

至于分层方法，最近Figure的人形机器人展示出了三层结构，虽然具体的分层数量可能因人而异，但基本思路是相似的。这不一定非得是三层，也可能是四层，或者两层，这取决于具体情况。

我想分享几个观点：

首先，端到端方法不应该被视为一个黑箱或者仅仅是架构的问题，它更是一个训练流程。

人们喜欢端到端方法，并不仅仅是因为它由神经网络构成，而是因为它能够通过数据驱动的方式减少对规则的假设，从而训练起整个架构。

我们构建的大多数架构，包括特斯拉所使用的，所谓的端到端方法，其实只是流程中的一部分，许多模块都是事先经过验证的。例如，transformer 和一些 Bird's-Eye-View (BEV)等，这些都是经过深入理解的组件，并不是纯粹未知的黑箱操作。这是一个我想要强调的方面。

至于使用什么样的模型，我认为这是一个见仁见智的问题。

我同意李淼老师之前的观点，我们也使用缺陷策略和大模型进行任务分解，以及模型学习进行技能训练。这些流程其实大同小异。

我想稍微分享一下，关于模型的底层逻辑，到底什么是模型？大模型好还是小模型好？

实际上，ChatGPT 背后的核心是 MOE（Mixture of Experts），它并不是一个单一的巨大网络，而是由专家网络连接而成，通过一些机制让每个专家发挥其特定优势。我认为未来机器人的发展也会类似，MOE 形式的模型来完成整体任务。

让我们回到模型的底层逻辑。所谓的大模型，主要指的是大型语言模型，但无论模型大小，关键在于它们是否有用。

我们经常上课给学生讲的第一句话：All models are wrong, but some are useful.（所有的模型都是错误的，但有些是有用的）

我们使用模型，主要看它们对我们的应用是否有用。

模型的本质是对数据和观察现象的压缩，这种压缩是否对你的应用有损害，决定了模型的正确性。

例如，我屋里的空调，我可以用一个简单的一阶动态系统模型来描述，这很简单，这是我对应用的压缩。同时，我也可以将所有分子的运动都描述出来，以了解精确的物理分布。在这种情况下，数据量会非常大。哪种模型更好，取决于是否能够压缩和描述这些数据。

如果你没有牛顿定律，这些数据你都得记下来，否则你无法将它们联系起来。现在我们不需要记住所有数据，只要知道物理定律就可以了。物理定律是运动的基础模型，而语言的基础模型是概率网络，即大型语言模型。

语言无法压缩到更低维度的空间，我们目前找到了一种通过大型语言模型来刻画的方式，但这并不一定是最好的方法。

因此，大型语言模型对语言、逻辑甚至视觉这类离散数据非常有用。它们大大帮助我们进行人机交互和任务理解规划。但是，如果要让机器人执行任务，特别是与物理世界的交互，目前大型语言模型的帮助还是有限的。

具体来说，大型语言模型可能在决策层面上有所帮助，但对于具体的运动控制，它仍然面临挑战。

总的来说，我更倾向于认为 MOE 的方式在机器人领域可能更有用，就像 ChatGPT 一样，它由多个专家的小模型组成，通过一个 agent 的概念将它们连接起来。这可能是未来机器人发展的一个方向。

孙宇：非常好的分享。确实，这两种方法各有其优势。人类大脑的结构也为我们提供了一个类比，正如庞博士之前提到的，大脑和小脑协同工作，各自承担不同的功能。

同样地，神经网络的结构也可能不会是单一的，它们可能会根据功能的不同而有所区别。

一种网络可能负责处理运动相关的信息，而另一种则处理更高层次的抽象知识。

这两种网络在结构和功能上都是不同的。这种结构多样性在神经网络设计中是非常有价值的，因为它允许我们针对特定任务优化网络，从而提高整体性能。

庞建新：关于 AI 大模型的利弊，我想分享一下我自己的看法。

我认为，在 AI 大模型中，对于机器人领域最有价值的部分之一是，如何有效地挖掘模型中蕴含的知识、推理能力，以及挖掘事物之间关系的能力。

这对于机器人的感知和决策至关重要，因为如果机器人缺乏这种能力，就意味着它失去了自主性。这种能力取决于机器人对外部环境、人物、事件之间逻辑关系的理解。

首先，我们需要探讨如何挖掘这种能力。

这种能力并不完全取决于挖掘一个多么大的模型，而是要考虑与场景相关的数据。我们需要构建一个有效的模型，无论是通过调整大模型的参数，还是专门为这个场景构建一个小模型，使其具备这种能力。这样，机器人就能在特定场景下具备真正的感知能力，并实现主动交互。

这是我们所说的机器人真正的“感知能力”，能够实现主动的交互。

正如李淼老师之前提到的，如果给机器人一个指令去做饭，但还需要人的指导，那么我们如何让机器人自己能够去做饭呢？它需要外部环境的感知能力，来了解当前的时间状态和做饭的具体步骤。这就需要大模型的能力，我们认为大模型具备这样的潜力，能够让机器人具备主动感知和交互的能力。

另一部分是与人类运动控制和运动智能相关。

其实人类的很多运动是无意识的。这部分是为什么我们要考虑使用基于数据的方法，因为我们找不到足够好的数学模型来表达这些运动。

例如，在双足行走的传统方法中，我们使用的是一个简化的物理模型，因为我们找不到与人类行走匹配的数学模型。这时，我们可能会引入数据驱动的模型。

这些模型与基于知识的模型是不同的。基于知识的模型需要很多专家知识和广泛的显性知识，而面向运动的数据驱动的模型可能涉及的是隐性知识。这种隐性的知识可以通过构建仿真环境或真实环境的数据融合进行训练来获得。但这个模型能否直接应用到物理世界中又是另一个问题。

我们知道，人形机器人的物理结构，无论是机械部分还是控制部分，与数字世界中的模型之间总是存在很大差异。那么如何将数据驱动的模型应用到物理世界中，这是一个巨大的挑战。

具体来说，人形机器人可以定义为三大能力：

1，移动能力。

移动能力在很多情况下主要依赖于感知技术，但它并不完全与感知紧密相关。

例如，保持地面平衡主要依赖于力觉反馈或者机器人自身的运动平衡控制智能。机器人的视觉感知可能仅用于识别并避开障碍，如悬崖或杂物。

2，操作能力。

我始终认为操作部分有可能实现真正的端到端控制。我们可以将操作视为一种刚体运动，或者是基于反馈的运动。这种方法有助于避免许多对感知精度要求很高相关的问题，使得操作过程更加类似于人类的机制。

尽管我们人类的视觉感知系统无法精确定位物体的绝对位置，我们却能够相对精确地感知两个物体之间的相对位置。同样的，现在机器人有类似的问题，能够感知到物体之间的相对位置，通过大量的学习和数据驱动的方法，基于视觉感知作为反馈，我们可以实现端到端的抓取。

此外，在实现端到端控制的过程中，我们可能并不总是直接控制电机。如果直接控制电机，可能会与硬件紧密耦合，这不利于模型的泛化。因此，我可能会选择将这个过程分解为两个模型的融合。

正如张巍老师所提到的，多个模型的组合并不意味着它不是端到端的，这只是为了解决硬件配合的问题，将其分解实现。

3，适应能力。

我们需要处理不同传感器的输入和适配不同硬件。因为其特殊构型，人形机器人未必是处理单一任务效率最高的。为了适应现实环境，人形机器人有许多通用化的设计，它在不同环境和多任务中的平均效率可能是最优的。

我们的目标是在特定场景中实现效率最优。这就要求我们的模型具有泛化性，不仅要适应不同的环境，还要适配不同的硬件构型。

例如，在工业场景中，我们不一定需要五指手，也许二指或三指手就能提高手的可靠性和耐用性。因此，我们可以采用分层的方式来满足场景适配、硬件适配或任务适配的需求。

大模型为我们提供了许多可能性，但同时也带来了许多问题。

首先是成本问题。

在机器人上运行多个模型会增加成本。我们需要考虑如何整合这些模型，同时保证经济性。我们可能需要专用的硬件设备，或者考虑运营成本。对于一些需要大量知识的复杂任务，我们可能需要更大的模型，而这些模型可能无法在本地运行，需要部署在云端，都涉及成本问题。

其次是效率问题。

在使用 ChatGPT 等工具时，我们发现很少一次就能成功完成任务，通常需要多次尝试和调整输入。这也是机器人应用中需要避免或解决的问题。在大模型中，尤其是生成式的大模型使用中，这是一个天然存在的挑战。

第三个问题是关于机器人使用生成式大模型在交互过程中可能出现的幻觉问题。

在机器人与人交互时，可能会产生一些错误的认知或理解。然而，对于用户来说，机器人本身并不知道这些幻觉的存在。因此，如何解决信息对齐问题来消除幻觉，确保机器人的执行既可靠又有效，同时保障安全。

这三个挑战是机器人在实际应用过程中必须面对和解决的。

孙宇：非常感谢庞博士的分享。的确，现在大语言模型和其他模型在传统 AI 领域的应用已经相当广泛。在这些应用中，并不要求模型始终正确无误。但在机器人学领域，情况就有所不同了。

庞建新：是的，我对大模型的应用进行了分类，分为两类业务，这是我个人的分类，可能不完全准确：

一类是“非严肃应用”，在这些应用中，错误是可以接受的，可以通过人的反馈进行纠正。

例如，让机器人画图或写诗，甚至总结论文，这些都是可以接受的应用场景。

但在“严肃场景”中，比如金融风险控制或关键交互决策，我们就需要非常谨慎，确保信息的准确对齐。在这些领域，确保输出信息的可靠，成为了一个重要的挑战。

05 技术与现实碰撞

目前的AI技术仍然受限于特定场景，而实现真正的泛化和通用人工智能（AGI）仍然是一个挑战。如何使机器人能够真正走进开放式服务场景的挑战？倒推企业和学术界应该如何协作？

孙宇：不同的应用场景有不同的要求。我们已经从更高层次的角度讨论了很多内容。现在我们从一个更具体的角度来看待这个问题。

在当前的机器人领域，还面临着哪些重大挑战，需要哪些技术的进一步提升？请大家说一些具体的例子。

对于想要进入机器人领域的研究者来说，哪些领域已经准备好落地，不再需要进行研究？而哪些领域我们认为目前还不够成熟，可能需要给其他研究者一些方向性的建议？这些挑战在什么情况下可能得到解决？或者有没有对未来某个时间点的预测？

从做饭的角度来看，我认为最开始的是知识表示，然后是运动规划，接着是控制，最后是执行。以及还有一个问题，那就是错误处理。

无论是机器人还是人，在做饭的过程中总会犯一些错误，特别是对于刚开始没有经过良好训练的人来说，进入厨房做饭犯错误是非常正常的。那么，我们应该如何来处理这些错误？

李淼：结合当前的需求来看，我曾经与港中文的陈翡合作过许多炒菜的例子，包括在 Aude Billard 教授的实验室也进行过许多不消耗资源的项目，比如从冰箱取出食材进行烹饪。

在上层规划这一层面，因为主要是在仿真器中进行，所以成果主要取决于任务分割的好坏，而这并不涉及太多的破坏性。

我认为，任务分割的好坏没有客观的标准，但随着ChatGPT等技术的发展，将大任务分解为小任务的能力已经相对成熟。

进一步到具体执行层面，我们首先需要感知，例如厨房中的工具位置、刀具和食物的位置。在烹饪过程中，我们需要知道食物的状态，比如它的味道。在感知层面，尤其是视觉感知，我认为已经相当成熟，因为它主要涉及遮挡和光线问题。随着视觉相关竞赛研究的进展，这一领域逐渐变得成熟。

然而，在多模态感知方面，除了视觉，还可能包括嗅觉、味觉等。在烹饪过程中，我们不能仅凭颜色判断食物的好坏。尤其在具体烹饪时，可能需要监测火焰温度或食物的熟度，这些无法仅靠视觉来判断。

在这一层，除了视觉以外的感知层面，目前研究的人还较少，还没有人将嗅觉或味觉集成到机器人的大模型中，或者这方面的传感器尚未明确。

再往后，就是规划和执行层面。

在执行层面，涉及具体操作和与物理世界的接触时，成熟度并不高。接触和非接触过程中的建模非常困难，尤其是实际操作中，比如抓取时，手指移动一毫米可能导致完全不同的结果。

在涉及严格接触的操作，尤其是所谓的灵巧操作时，目前还远未准备好。无论是从硬件、感知还是执行层面，都存在许多挑战。我认为，要让机器人的这种操作走进我们的日常生活，目前成熟度可能只有20%～30%，无论是控制、硬件还是算法、传感器等方面，都还有很长的路要走。这是我个人的粗略估计。

孙宇：感谢分享。物理接触或者物理交互是一个相当具有挑战性且尚未成熟的领域。我个人感觉，以1毫米为例，给我的感觉，似乎表明抓取或者物理接触本身是一个非连续的过程。我不知道这种感觉对不对，请张巍教授分享一下。

张巍：基本上我同意这个观点，并且我想稍微补充一些细节。关于什么是“ready”的领域，我们可以大致将其分为三层。

第一层是规划（planning），这包括了很多内容，如人机交互、任务规划等。规划层面指的是机器人能够通过想到就能完成的任务，不需要实际动作，只需要规划出要做什么，大概怎么走，这些不需要真实的运动过程。

第二层是每个单元的动作或者原始动作（motion），涉及到接触物体、改变物体的姿态等。例如炒菜过程中的各种动作，与接触相关的这一层目前是发展中的。

第三层，即整个运动控制底层与硬件的耦合，这一层相对来说比较成熟。

大模型或者多模态感知对上层规划和中间的动作执行都有帮助，它们都是必需的。目前感知部分，尤其是那些需要计划的感知任务，大模型可以提供一定的帮助，但在我看来，这些仍然是非常不成熟的，特别是涉及到接触或保持接触的感知任务，这一步相对比较困难。

我认为模仿学习在数据足够多、任务足够简单的情况下可能会有一定的效果，但在任务复杂且泛化要求高的情况下，这也是未来值得期待的一个研究聚合点。

孙宇：张老师，你刚才所提及的，最初期的两个层次似乎尚未完全准备就绪，对吧？我指的是从知识层面到运动规划这一阶段，也就是最基础的高层次知识。

张巍：确实，我在描述上层结构时并未过分详细。你提到的从知识到运动规划这一部分，我认为相对来说问题要简单一些。运动规划方面的问题也相对容易处理。

但是，当涉及到任务规划和分配，以及进一步拆解工作时，我认为这些都是属于大型模型中 agent 的一部分。大型模型本身的 agent 功能，比如帮我回复一封电子邮件或者安排一次旅行，这些任务要准确无误地完成还是有挑战的。

至于机器人智能体（Robot agent）的发展，我认为还有一段路要走，才能对外推广。

当你将任务拆解到动作层面，比如我要过去拿起一个手柄，整个运动规划方面，我认为相对来说问题要简单一些。我们可以看到如何解决这个问题，只要避免碰撞就可以了。

如果规划的目的是为了避免碰撞，那么规划就相对容易；如果是为了实现接触，那就复杂了。

孙宇：事实上，我们之前也认为在开放环境中寻找任务是非常具有挑战性的。但是自从引入了GPT-4 之后，我们发现有许多方法可以有效地提取任务，或者构建一个局部知识图谱。

通过这两种方法的结合，我们能够使任务执行变得非常可靠。我们有信心能够将准确度提升到 90% 以上。那么，整个任务的执行就不会有问题。

如果你给出 100 个大型任务，其中 9个任务将会被完全正确地分解。只有在 10% 的情况下，可能在分解过程中的某一步会出现问题。

即使在大多数家庭环境中，这样的准确度也是可以接受的。因为在操作过程中，如果机器人发现某一步骤不正确，它可以自我纠正并重新执行。所以我认为这部分的工作是非常有价值的。

张巍：您刚才提到的任务分解正确率。如果在执行一个子任务时出现了错误，比如我想要煎鸡蛋，但机器人却不小心打翻了。这种情况是在您所说的 90% 的准确率之内，还是属于另一种情况？这涉及到任务的泛化能力。

孙宇：是的，这种情况属于失败恢复（failure recovery），这是我们目前正在努力解决的问题，而且这不包括在90% 的准确率之内。

90%的准确率是指，比如有一个简单的食谱，比如说今天早上想吃煎牛排或者煎蛋卷，你告诉机器人整个任务，它能够将任务分解为从冰箱取出鸡蛋、放置位置、搅拌等十几到二十个步骤，并且能够 100% 正确执行。

如果有一步不正确，在机器人实际执行过程中，它可能会发现问题并不容易解决，这时就会重新触发任务的再生，从而确保任务能够顺利完成。

庞建新：技术与现实之间存在着不小的差距。

我认为，第一个显著的分歧尤其在于通用人工智能（AGI）方面。

毫无疑问，当前的AI与AGI之间还有很长的距离。这意味着，在开放场景下，基于知识驱动的方法并不十分有效，因为我们无法实现完全的泛化。要真正实现泛化，我们需要解决两个主要问题：第一，实现 AGI；第二，我们需要更先进的硬件。

前者是指，当前机器人硬件与尚未达到 AGI 的 AI 的结合，这主要用于解决特定问题。

例如处理结构化或半结构化环境下的特定任务，在有限环境或半结构化环境下执行有限任务，我们认为这在当前已经具备了可行性。尽管仍需在传感器、系统工程等多方面进行改进，但这些主要是工程问题，而非理论上的挑战。

另外，我们是否拥有足够先进的硬件。

例如，我们可能会需要超越传统的电机驱动方案，因为电机在功能密度和能量密度上有其天然的限制，可能会有新的机械构型出现。

再算上AGI的加持，我们的开放场景本质上将不再仅仅是处理结构化任务，而是在执行这些任务的过程中处理异常情况。

例如，如何处理突然出现的障碍物或失败的情况？如何通过多次尝试学习并掌握某种能力？我认为这两个阶段是我们未来发展的关键。

回到当前的现实情况，实际上在感知层面，我们也面临着巨大的挑战。

我在感知方面的研究较多，但目前的感知技术主要还是基于二维的。然而，当机器人在移动或操作过程中，我们还需要解决的是三维感知问题。

目前，要让 3D 感知技术在我们的机器人本体上有效应用，或者在稍微泛化的任务中发挥作用，仍然是一个挑战。例如，最简单的情况，如何处理透明或反光物体？当然，这可能需要多个传感器，通过多视觉传感器融合来实现。

再举一个例子，前几天我参加了一个具身智能的讨论会。他们提到了一个对人类来说非常简单，但对于机器人却颇具挑战的场景：如何端有水的杯子？水是流体，会晃动，无论如何都会晃动。你如何确保在倒水时不溅出杯子？在移动过程中又如何保证水不溅出？

这对人类来说可能是自然而然的事情，不需要经过大脑思考，小脑就可以基于触觉反馈进行自然的运动，感知到重心的变化等。

然而，这一部分恰恰是机器人目前尚未解决的问题。目前所有的感知和控制大多基于视觉或触觉感知，但这些传感器并没有我们想象的那么有效。它们与我们的控制模型之间还没有建立起有效的关系，这也限制了许多可能性的发展。

我们通常将这类问题归结为：算法在特定场景下的应用。

以端水这个简单的任务为例，我相信目前大多数机器人要成功完成这项任务还相当困难。这个任务虽然听起来简单，但其实质涉及到从感知到控制，再到决策，甚至还包括视觉感知等多个层面，是一个非常复杂的挑战。

这里我想强调的一个观点是：目前机器人还面临的一个重大挑战在于整个系统的不完整性。我们尚未构建出一个完整且可靠的机器人系统。如果我们能够有效地整合各种模块，实现它们之间的信息传递和控制转换，那么很多问题可能可以迎刃而解。

因此，回到我的理解，我们企业需要做的工作实际上是如何在学术界的成果基础上构建这样一套系统，逐步实现传感器与系统之间的标准化，然后在场景和技术的双重推动下，使各个模块能够相互连接。

我之前提到过一个观点：我们现在需要解决的是感知与控制的融合问题，也就是如何将感知和控制结合成一个完整的系统。目前这两者仍然是割裂的。

例如，我们的AI大脑和小脑之间的连接和数据传递，哪些数据能够将它们连接起来，形成一个完整的系统？

当然，我们也看到了当前的现状，在结构化或半结构化环境下，一些任务已经具备了基本的应用落地可能性。

孙宇：非常感谢。我认为有一个方面非常有趣，那就是无人驾驶技术之所以能够迅速发展，主要是因为它的输入输出都已经标准化了。无论是传感器还是执行器，都是一套相对标准化的系统。虽然有些无人驾驶使用雷达，有些不使用，有些使用摄像头，有些使用各种不同的设备，但整体上的差异还是相对较少的。至于视觉行为其实更少，它基本上是在一个三维空间中进行操作，这个维度相对较小。

但如果你看看人形机器人或其他类型的机器人，它们的操作空间维度就多得多。而且传感器的稳定性也不尽相同。

今天的系统可能增加了一个触觉传感器，明天的系统可能引入了新的视觉效果，或者红外线传感器，或者其他类型的传感器。

这些传感器的安装位置也各不相同，有的安装在手上，有的可能安装在其他位置。这就导致了系统的复杂性。

此外，电机的动态特性也各不相同。

因此，总的来说，人形机器人系统或类似的系统比无人驾驶系统要复杂得多。

06 畅想和协作

孙宇：在AI+机器人领域，未来几年可能会出现哪些颠覆性的技术变革？或者认为有哪些方向是大家应该注意的？

李淼：因为我一直在从事抓取方面的研究，包括你提到的 IROS 挑战赛，我也连续参加了好几次，积累了一些经验。

我们普遍认为，在人形手部这个研究方向上，尽管目前许多人在模仿 Optimus 进行硬件设计，但我们一直在思考这个问题：以往我们在进行抓取规划时，可能更多地关注接触层面。但在所有抓取任务中，我们实际上更应该建立一个更加通用和统一的接触层面解决方案，而不是仅限于特定手部的。

我们应该努力构建一个更大、更统一的系统，从感知到接触层面，涵盖抓取规划的全面数据集或基准。我认为这可能是我们这个领域，特别是在未来五年内解决操纵问题时，需要努力实现的目标。

这个过程有点像在自动驾驶中，至少需要在路上划出车道线。如果没有车道线，那么自动驾驶的问题就会相对复杂化，没有任何规则可循。

因此，我认为可以借此机会呼吁，在后续的学术交流或与供应商的讨论中，尝试构建一个紧凑、丰富、多彩的大一统数据集。我认为这将是非常必要的一步。

张巍：关于开放性的建议或者说个人体会，我想具体谈一谈。

目前，AI与机器人结合的研究方向无疑是一个充满潜力且至关重要的领域，未来的发展前景令人期待。鉴于目前从事这一研究的人数，我认为这个领域仍然非常活跃，充满了创新的可能性。

然而，无论是在学术界还是工业界，我认为有一个需要明确的问题，那就是定位不清。有时候，学术界的人在做工程，而公司里的人在做学术研究，这种现象相当普遍。

大家共同的产品是一个 Demo ，它既不是一个产品的起点，也不属于学术研究。

我希望从我个人的角度，无论是在我的团队还是我们所在的公司中，我们都应该明确自己的定位：我们是企业还是学术机构？企业应该做什么，学术机构应该做什么？

此外，我们当前研究的问题是技术落地和产品化的问题，还是技术探索的问题？这一点也需要弄清楚。

我注意到，这种现象已经存在很长时间，包括我的学生在内，他们认为如果某个领域的 Demo 已经有人做过，那么这个领域似乎就要走到尽头了。

但我认为，这些酷炫的 Demo，我称之为“莱特兄弟时刻”，它们只是科研工作的开始。

别人看到一个令人印象深刻的 Demo，可能会觉得机器人领域已经没有什么可做的了，但事实上，如何设计飞行器、真正理解空气动力学、进行实际测试等深层次的工作，才是科研的真正开始。

这些令人惊叹的视频或 Demo，实际上是科研工作的起点。

孙宇：确实我们经常在各种场合看到一些令人印象深刻的Demo。

Demo 本身往往不会告诉你背后团队做了哪些调整工作，而且Demo是处在一种受控的、确定性的环境中。

比如 OpenAI 在舞台展示的一个 Demo，场景被设置在家庭环境中，舞台上面放了一个苹果，有人问：“有什么可以吃的？”

那种情况下只有一个苹果，机器人只能拿给他一个苹果。

但如果这个人说：“我不想吃苹果，你能给我一个橙子吗？”这时我就不知道机器人会怎么做。

或者如果有人说：“我不想吃皮，你能帮我把皮剥了吗？”

我不知道OpenAI的机器人是否能够完成这些事情。

很多时候，一些看起来很酷的 Demo 可能会产生一定的误导性。但在工业界，我们可能也需要意识到，有些东西其实还没有完全准备好。

庞建新：我分享一下我的想法。多年来，我一直致力于人工智能技术与人、机器人的融合研究。在此期间，我也有幸与一些学术机构，包括张巍老师等进行过合作。

我一直期望能够促进学术界、工业界之间的深入互动。这种互动不应仅仅局限于特定课题或项目，而是希望学术界的老师们能与工业界的同行们一起，基于某些实际场景共同探讨科学问题。

我们可以明确分工，共同解决当前工业界和学术界面临的问题。工业界的同仁们也非常愿意提供相应的环境和场景，以便大家共同探讨。这是我向大家发出的倡议。

孙宇：感谢各位的分享和参与。确实，工业界与学术界的交流能够带来许多有趣且具有挑战性的问题。在实际应用中，我们可以发现许多尚未解决的资源问题，而工业界也能从学术界获得新的灵感，了解哪些理念可以落地实施，以及研究的真正难点所在。

由于时间关系，我们今天的讨论就到这里结束。

非常感谢各位嘉宾在本次圆桌论坛中的精彩分享。同时，也感谢雷峰网提供这样一个平台，让大家有机会交流各种观点，特别是关于当前热点话题——AI与机器人技术的多角度洞察和心得体会。

希望我们的讨论，能够对观众以及未来观看视频的朋友们有所帮助，并期待这些交流能够促成一些实际的合作。

本文作者吴彤长期关注人工智能、生命科学和科技一线工作者，习惯系统完整记录科技的每一次进步，欢迎同道微信交流：icedaguniang