UC Berkeley Ken Goldberg 教授：具身数据规模落后十万年，你仍然相信数据万能吗？| ICRA 2026

GOFE ICRA 代码即策略

2026/07/01 13:45

雷峰网讯数以十亿计的资金涌入具身智能行业，与此同时，这些机器人真正完成的有效工作却屈指可数。落地压力的迫近之下，VLA 等无模型方案和传统 Model-Based 路线之间的分歧是如此强烈，以至于某种程度上，甚至带上了意识形态的色彩。

这成为了本届国际机器人与自动化会议（ICRA）现场最引人关注的话题。在会议第二天，UC Berkeley 教授 Ken Goldberg 发表了题为《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演讲，发表了他对具身数据采集、数据飞轮、GAP 系统，以及有关具身落地种种的看法。雷峰网(公众号：雷峰网)·AI科技评论在现场发回报道。

过去几年，随着 ChatGPT、视觉语言动作模型（VLA）和人形机器人热潮兴起，依靠海量数据、深度学习和大模型驱动的 Model-Free 路线几乎成为行业主旋律，人们无比相信 Scaling Law 将再次带我们抵达具身智能的 GPT 时刻，乃至真正的通用机器人。

对此，Ken Goldberg 提出了灵魂之问：什么时候？

“如果按照人类平均阅读速度计算，阅读完今天训练大型语言模型所使用的全部数据，大约需要10万年。而换算到机器人领域，我们目前积累的数据总量，大概只相当于几年的规模。”

具身智能数据鸿沟的抽象讨论背后，是一组恐怖的对比数据。Ken Goldberg 相信，这已经足够成为我们对“数据万能论”保持警惕的充分理由。而海量数据的反面是工程，在一条更可靠的具身落地路径上，工程架构、模块设计和物理建模仍然不可替代。

在演讲中，Ken Goldberg 回顾了自己团队著名的 Dex-Net 项目。从利用概率模型评估抓取成功率，到构建大规模仿真数据集，再到训练神经网络完成真实世界抓取，这个近十年前的尝试对于今天的具身智能仍有启示，那就是数据与工程方法的深度结合，效果远胜单纯的数据堆砌。当下对数据飞轮的讨论同样可以纳入这一框架，大规模商业部署，首先关注的必然是让机器人做出有用的事情，这离不开对工程层面的关注。

数据还是工程？对于这个困扰行业已久的问题，Ken Goldberg 认为答案或许不是二选一。当前炙手可热的 VLA 模型拥有惊人的泛化潜力，却容易在环境发生细微变化时失效。传统工程系统虽然缺乏通用性，但可靠性见长的特点却让二者看起来像是天作之合。

让大语言模型不直接控制机器人，而是生成可解释、可验证的计算图，再由多个智能体协同构建和优化系统。这就是 Ken Goldberg 在仿真、世界模型、遥操作之外，提出的一种全新融合思路。

以下是 Ken Goldberg 在 ICRA 2026 大会发表的演讲精编稿，AI 科技评论基于原英文演讲内容进行了不改原意的翻译编辑：

《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》

主讲人：Ken Goldberg, UC Berkeley

UC Berkeley Ken Goldberg 教授：具身数据规模落后十万年，你仍然相信数据万能吗？| ICRA 2026

GOFE 和代码即策略，能否弥合机器人操作领域长达十万年的数据鸿沟？

今天我想讲的是“两种文化的故事”。

大概7岁的时候，我经常熬夜看《Jetsons》。有些人可能还记得，那是一部很棒的动画片。里面有一个机器人，她会做所有家务，然后陪孩子们玩。我当时觉得太棒了，从小我就一直想拥有这样的机器人。事实上，我父亲和我真的一起造过一个机器人。那是给他的铬电镀公司做的，一个机器人吊运机。它其实从来没有真正成功运行过，不过说实话，我们当时做的很多东西都没成功。

正如 Alex 提到的那样，我小时候同时对科学和艺术感兴趣。随着年龄增长，我越来越意识到这两者之间存在着一道鸿沟。这让我想起 C. P. Snow 所描述的“两种文化”——科学家和艺术家看待世界的方式截然不同。

后来我去了卡内基梅隆大学，投入到了科学研究中，专注于解决问题。我至今仍然记得某个时刻，当所有事情突然串联起来时的感觉。那种感觉真的很奇妙，仿佛宇宙中有某种力量在推动这一切发生。与此同时，晚上我还会偷偷在实验室里用机器人创作艺术作品。我的导师 Matt Mason 后来发现了这件事，因为我把油漆洒在了地板上，所以不得不承认自己在干什么。

结果他说：“好吧，继续做下去。”他非常支持我。这件事让我非常开心。

几年后，我们完成了一个叫做 Telegarden 的项目。在互联网发展的早期阶段，我们把机器人接入网络，人们可以在线操控机器人来照料花园。再后来，我和 Katie Kuan 合作完成了一个项目。她毕业于斯坦福大学机器人学博士项目，同时也是一位职业舞者。我们一起做了一场舞蹈表演，当然跳舞的不是我，而是一台小机器人。可以说，我一直试图在科学与艺术这两种文化之间搭建桥梁。

但正如 Alex 所说，还有另外两种文化，是我后来逐渐研究并不断思考的：机器人学内部的文化，以及机器人学外部的文化。有人曾开玩笑说，一台机器人叫 Robotics（机器人学），十台月球机器人就是 Roger Biller 说的 Automation（自动化）。

我曾参与创办《IEEE Transactions on Automation Science and Engineering》，它是《IEEE Transactions on Robotics》的补充。如今这两个期刊都发展得很好。现在我们还有一个新的组织叫做 CASER，这是 Jim Hutchinson 命名的委员会，目的是探索自动化与机器人之间的协同效应。这个工作至今仍在继续，他们周四也有会议。

好了，说到“两种文化”，今天我真正想讨论的是另外一组文化。这是我在 ICRA 社区中看到的两种文化：一种是 Model-Based（基于模型），另一种是 Model-Free（无模型）。

我认为前者可以追溯到牛顿时代。这是我们在大学里学习了很久，并且今天依然在教授的内容。它构成了机器人操作（manipulation）的核心基础，也支撑着诸如《Algorithmic Foundations of Robotics》等会议和大量学术成果。

然而到了2012年，情况发生了变化。以深度学习为代表的 Model-Free 方法取得了重大突破。最早是深度学习，然后是 Transformer，再后来是 Diffusion Model。到了2021年，人们又开始重新讨论人形机器人。

大家可能还记得，第一款“人形机器人”就是在 Tesla AI Day 上发布的。当然，它并没有真正骗过任何人。不过 Elon Musk 当时承诺：“未来 Tesla Bot 会来到这里。”那是2021年。

这件事吸引了大量关注。随后到了2022年底，我们迎来了 ChatGPT 时刻。那天早上醒来时，我们突然意识到，图灵测试也许没有被正式宣布解决，但它实际上已经被通过了。

接下来发生了一系列重大进展。到了2023年，VLA（Vision-Language-Action）模型迅速出现。同样的思想被扩展到了机器人领域，摄像头和传感器作为输入，中间是一个大型神经网络，输出则是机器人动作，这是一个端到端系统。

我认为这真正催生了两种文化。许多人对右边这条路线——Model-Free、VLA 路线——充满热情。如果我现在做个现场投票，我相信会有大量听众支持这一方向。所以我想借今天的时间，稍微深入讨论一下这个问题。

首先从机器人数据鸿沟开始。必须承认，自2025年以来，这个领域的发展势头越来越强。Jensen Huang 曾站在舞台上展示大量人形机器人。今年他更进一步，不仅展示人形机器人，还展示各种机器设备。他提出了“Physical Intelligence（物理智能）”和“Physical AI（物理人工智能）”的概念，并表示这将是一个价值50万亿美元的市场。这几乎相当于全球劳动力成本的一半。

因此大量资本正在涌入。所有人都在问，机器人领域什么时候会迎来属于自己的 ChatGPT 时刻？很多人的回答是，大数据解决了视觉问题，大数据解决了语言问题，因此，大数据也会解决机器人问题。对此我基本同意。

但我真正想问的问题是，这件事什么时候会发生？我知道它终将发生，但我不知道具体时间。

视觉本质上是二维状态空间，语言可以看作一维 Token 序列，而机器人系统的状态空间维度极高。如果讨论一个人形机器人，仅仅是一双25自由度的手，加上手臂，很快就达到50维以上。与此同时，我们还没有像互联网那样的大规模机器人训练数据。那么这个类比究竟如何成立？

因此我们做了一项分析，部分基于 Michael Black 的工作。结果发现，机器人领域拥有的数据量极其微小。与大语言模型相比，几乎微不足道。于是我们提出了“机器人数据鸿沟”这个概念。

如果按照人类平均阅读速度计算，阅读完今天训练大型语言模型所使用的全部数据，大约需要10万年。而换算到机器人领域，我们目前积累的数据总量，大概只相当于几年的规模。这就是巨大的差距。

当然，也有人会说，数据就是一切。但我想对此提出一点质疑。以 Waymo 和 Tesla 为例。Tesla 长期积累的数据量大约达到90亿英里驾驶数据。粗略估计，比 Waymo 多出约50倍。具体数字可能略有偏差，但数量级就是如此。然而在脱离接管率（disengagement）等指标上，Waymo 的表现往往更好。

当然，你可以说这与激光雷达有关。但我想借此提出一个问题：数据真的是唯一需要的东西吗？我和 Waymo 的朋友聊过这个问题。他们告诉我：“是的，我们使用了大量数据训练车辆，但系统内部仍然包含大量传统工程技术。”

所谓传统工程技术，意味着系统由许多模块组成。这些模块使用卡尔曼滤波器、优化器以及各种数学模型。它们被组合起来，共同完成任务。模块化系统具有明确接口，可以组合、分析和验证，这与端到端 VLA 系统形成了鲜明对比。

这正是我所说的“两种文化”，一边是基于模型的方法，另一边是无模型方法。

很多人其实同时属于这两个阵营，比如我本人。我是 Open X-Embodiment 那篇论文的共同作者之一，那篇论文有150位作者参与。如果你去看那篇论文，它提出了一个非常重要的观点：通过在16万个不同任务上进行训练，模型正在走向通用性（generality）。

但我对此有一点疑问。如果你对这些任务做一个统计分析，看看用于描述任务的语言分布，会发现最常见的词是“pick（抓取）”、“move（移动）”、“push（推动）”。这些词出现的频率远远高于其他词。换句话说，这16万个任务中的绝大部分，其实最终都可以归结为一个非常简单的任务，把物体0拿起来，放到物体1上。而有趣的是，这正是 John Craig 机器人学教材第三章讲的内容。

那本书写于 VLA 出现之前很多年，它给出了大量经典工程方法来解决这个任务。只要你有一个视觉模块找到目标，有一个抓取模块，有一个运动规划模块，然后整个系统就能完成任务。所以我想说的是，我非常喜欢这些 VLA 系统。它们非常有趣，也非常令人兴奋。但很多时候，传统工程方法依然能够把工作完成得很好。

再回到这两种文化。坦率地说，两者之间存在某种紧张关系，甚至带有一点意识形态色彩，有些人坚定站在某一边。我想稍微深入讨论一下。

接下来讲一个关于 Covariant Robotics 的故事。实际上，在过去45年里，我一直在研究同一个问题，机器人如何抓取物体。有人说这是因为我小时候特别笨手笨脚，这是我母亲的理论。但无论如何，人类在抓取方面确实极其擅长。

到了2012年，深度学习革命开始了。正如大家都知道的，海量数据、强大的计算能力、新的训练算法……当时我和 Shankar Sastry、Pieter Abbeel 以及几位研究生一起开设了一门机器人操作课程。课程内容基本还是传统机器人学教材里的经典工程方法，但与此同时，我们也在关注计算机视觉领域发生的事情，尤其是在图像分类和标注方面取得的巨大进展。

这些成果很大程度上来源于 ImageNet。Fei-Fei Li 系统性地收集了海量标注图像数据，于是我们开始思考，能不能把同样的思路用于抓取问题？

因此我们启动了 Dex-Net 项目。为了向 Fei-Fei Li 致敬，我们也希望建立一个大型数据集。不过不是图像标注数据。而是三维物体模型，以及针对这些物体的大量抓取方案。

幸运的是，我的博士生 Jeff Mahler 对这个项目非常投入。他开始从互联网各处收集三维模型，许多学生也加入进来。他们清理模型、统一格式、构建数据库。一个典型的 CAD 模型可能包含上千个三角面片。对于平行夹爪而言，一次抓取对应两个接触点，也就是两个面片。因此一个物体可能对应数百万种抓取方式。

接下来我们思考，如何建模抓取过程中的不确定性？我们建立了一个概率图模型，把所有变量都看作随机变量，它们之间存在条件概率关系。最终我们关心的问题是，某一次抓取成功的概率是多少？

举个例子。对于某个标称抓取姿态，我们知道现实中一定存在误差。我们不知道真实接触点在哪里，因为物体位姿有误差，夹爪位姿有误差，物体形状有误差，质心位置也有误差。因此我们从这些概率分布中不断采样，统计成功和失败次数，然后利用蒙特卡洛积分计算成功概率。

结果如图所示：左边那个抓取成功率约为22%，右边那个抓取成功率约为92%。

这其实非常符合直觉。左边的抓取非常脆弱，一点点误差就会失败，右边则具有自校正能力，即使存在误差，依然能够成功。这才是现实中真正想要的鲁棒抓取。

接下来我们关注感知问题。我们决定使用深度传感器，因为我们关心的是物体的三维几何形状，而不是颜色或纹理。深度信息对此非常有帮助，但深度传感器本身噪声很大。如果大家使用过，就会知道，尤其面对反光表面或透明物体时，噪声会非常明显。

我们建立了一个传感器噪声模型。我们知道物体的三维 CAD 模型，于是模拟深度相机观察该物体时的结果，并加入噪声，这样我们得到一个观测值 y。它符合真实传感器的统计特性，然后把这个观测值与具体抓取动作和成功概率对应起来，这样就得到一个训练样本。接着利用云计算平台大规模生成数据。我们拥有约15000个物体模型，对数百万个抓取方案进行评估，最终获得一个巨大数据集。其中既包含大量成功样本，也包含大量失败样本。

然后我们训练神经网络。当时这是一个非常大的网络，参数规模接近十亿级。训练最终收敛，在保留测试集上表现良好。换句话说，给它一张带噪声的深度图像，再给定一个抓取姿态，它能够预测抓取成功概率，而且泛化能力很好。

接下来我们把它用于真实控制。流程是先输入一个杂乱堆放物体的料箱图像，生成大量候选抓取，利用神经网络快速评估每个抓取的成功概率，然后选择成功率最高的方案执行。

这就是2017至2018年左右的 Dex-Net 系统。左边展示的是吸盘抓取器，右边展示的是平行夹爪。如果仔细观察会发现，它并不是每次都成功，但成功率已经高得惊人，在当时属于世界领先水平。我们经常找来数百个训练集中从未出现过的物体，这些东西来自家里、车库、各种地方，系统依然能够稳定清空整个料箱。

后来这项工作获得了不少关注，甚至引起 Jeff Bezos 的兴趣。当时他是 Amazon 的 CEO，他邀请我们到现场展示系统。所有做机器人研究的人都知道，实验室里的机器人能运行是一回事，把它运到别的地方演示是另一回事，这非常让人紧张。我们必须把整套系统打包运输，而此前它从未离开过实验室。

我们担心无数问题，运输损坏、灯光变化、环境变化，还有各种不可预见情况。但幸运的是，一切居然正常工作。我们带去了三箱测试物体，Jeff Bezos 来到现场，开始亲自摆弄那些物体。

一开始系统表现得非常好，直到出现一个意外。他的助手 Ty Brady 脱下自己的鞋，走上前说，能试试抓我的鞋吗？我要告诉大家，当时我们从来没有用鞋测试过，从来没有。

当时我整个人都僵住了，但还能怎么办呢？于是他说，来吧，然后把鞋扔进料箱。我屏住呼吸，因为 Jeff Bezos 就站在那里。机器人伸出手臂，缓缓移动过去，夹住那只鞋，成功抓起。

我可以坦白说，那一刻可能是我人生中最美好的时刻之一。

高压演示环境下，一切居然成功了。第二天，我们受到巨大鼓舞。Jeff Mahler 和另外三位即将毕业的学生一起创办了公司，我也是联合创始人之一，这家公司后来发展成为 Ambi Robotics。

Ambi Robotics 的发展是一段漫长的旅程，我们持续构建和扩展整个系统，而就在这个过程中，新冠疫情爆发了。幸运的是，我们当时研究的问题——包裹分拣——被认定为关键基础设施业务，因此我们获准继续开展研发工作。后来我们开发出了一套系统，叫做 AmbiSort。

AmbiSort 的核心思想依然来自 Dex-Net。它从料箱中抓取物体，只不过这里的物体不再是零件，而是包裹。大家可以想象这个问题有多复杂，系统首先获取深度图像，然后工业机器人伸出机械臂抓取包裹，接着扫描包裹上的邮编信息。最后根据目的地，把包裹放入对应的分拣箱。

这是我们最早的一段演示视频。当时我们的愿景是，把这样的系统部署到全国各地的物流中心，因为这是几乎所有物流配送中心都会遇到的问题。很高兴的是，我们后来真的做到了。

如今系统已经部署在美国各地。我们与主要物流公司合作，他们使用 AmbiSort 系统完成自动化分拣。

这时你可能会说，等等，你刚才不是在质疑数据至上吗？Dex-Net 不就是一个依靠大量数据训练出来的系统吗？

是的，这里确实用了大量数据。但我要强调的是，仅靠数据远远不够。真正让系统运行起来的是数据 + 传统工程，大量工程设计、大量模块化系统、大量细致调试。

其中一个关键模块就是运动规划，因为机器人夹爪和手腕结构较大，它必须在非常狭窄的空间中完成复杂运动。尤其是在料箱越来越深的时候，运动规划变得极其困难。

大家都知道运动规划是机器人学里的经典问题。但当你要求它在极短时间内完成，而且环境非常拥挤时，问题就变得十分棘手。后来 Jeff Mahler 和 Jackie 提出一个非常聪明的想法，利用神经网络为运动规划提供 Warm Start。先用神经网络预测一个好的初始解，然后再进行规划，结果效果非常好，规划时间显著下降。随后又有另一批博士生创办了新公司 Jacobi Robotics，他们专门开发运动规划软件，现在已经商业化运营。

接下来我想回到“两种文化”的讨论。因为我知道，很多人此刻可能在想，这个人有点老派，他是不是不了解《The Bitter Lesson》？

其实我非常了解《The Bitter Lesson》，我也完全认同它。它的核心观点是，长期来看，计算能力最终会胜出。我并不是在否认这一点，我的问题始终只有一个，什么时候？这才是我整场演讲真正想讨论的问题。

因为现实摆在这里，机器人领域与大语言模型之间仍然存在五个数量级的数据差距。这就是我们面对的现实。那么数据从哪里来？我们怎样获得足够的数据？

目前主要有几条路径。第一条路径是仿真，这对于无人机来说效果非常好。你可以在仿真中训练，然后迁移到现实世界。仿真与现实之间的差距非常小，甚至已经能够击败世界级无人机竞速冠军。对于运动控制（Locomotion）也是如此。例如机器狗，今天大家看到的大量成果，都是在仿真环境中训练出来，然后成功迁移到真实世界的。对于全身运动控制而言，仿真到现实的差距相对较小，因此我们也看到了令人惊叹的成果。

但在操作（Manipulation）领域情况完全不同，这里的仿真与现实差距非常大。原因很多，包括接触力持续变化，摩擦持续变化，物体会发生形变。尤其在人类服务场景中，大量物体都是可变形的，而操作本身又容易受到微小碰撞影响。因此经常会出现的情况是，仿真里表现完美，现实中完全失效。这就是操作领域面临的巨大挑战。

另一条路径是世界模型，过去一年大家都在讨论它。例如 Cosmos 这样的系统，它们利用海量视频进行训练。视频数据确实很多，互联网拥有丰富的视频资源。但问题在于，世界模型经常出现幻觉。例如机器人抓取任务中，模型有时会凭空生成第三根手指，或者创造根本不存在的结构，这种情况并不少见。

从视觉效果上看，世界模型似乎合理，但实际上并不理解物理世界。当然，我知道很多人在研究这个方向。未来也许会解决，但目前还没有。

第三条路径是人类遥操作。很多团队都在让人类直接操控机器人，这样可以获得高质量演示数据，如今已经形成一个庞大的产业。但坦率地说，我并不觉得这是令人向往的工作。整天坐在那里遥操作机器人，我的学生们并不喜欢做这件事。而且问题依然存在，这样究竟能收集多少数据？

于是我想提出第四条路径。讨论相对较少，但我认为非常重要，那就是真实生产环境，让机器人真正投入工作，然后从工作过程中收集数据。

以 Ambi Robotics 为例，去年我们的系统累计分拣包裹突破1亿件。这意味着什么？意味着我们记录了近1亿次抓取操作。系统会保存每一次成功和失败，我们拥有统一监控平台，监控所有部署系统，进行预测性维护，发现堵塞、故障、异常。与此同时，也在持续积累数据。截至目前，我们累计获得了约22年的机器人运行数据。注意，这22年不是自然时间，而是所有机器人工作时间累加后的总量。

这些数据是在过去4年里积累出来的，但即便如此，22年数据依然不算多，因为公司规模还不够大。我们甚至没有足够预算去处理全部数据，于是我们选取了一小部分数据进行实验，训练通用抓取模型，然后测试一种全新场景，抓取物流袋。

这与 Dex-Net 时期完全不同。袋子高度可变形，充满褶皱，而 Dex-Net 原本训练的是刚体物体。结果我们发现，真实生产数据训练出来的模型效果极好，远远优于原有数据集。

于是我们提出一个概念，Data Flywheel（数据飞轮）。先让系统投入运行，获得数据，利用数据提升性能，性能提升后卖出更多系统，部署更多机器人，收集更多数据，再进一步提升性能，形成正反馈循环。

后来我和 Leslie Kaelbling 讨论这个问题。她指出，如果系统持续增长，其实已经不仅仅是飞轮，更像是一种指数增长过程。所以我现在更愿意称之为Data Avalanche（数据雪崩）。我认为，这才是机器人获取大规模数据的核心路径。

接下来我要讲的是最近六个月一直在思考的新内容，就从“通用机器人（General Robotics）”开始。这是现在最热门的话题之一，Jensen Huang 在谈，Elon Musk 在谈，大量公司都在谈。核心目标是构建一个能够适应所有场景的通用机器人模型，这个愿景非常吸引人。

但一个月前，Dyna 创始人 Yu Gang 发了一篇很有意思的文章，我建议大家去看看。他指出，通用机器人公司已经融资数十亿美元，超过140家公司获得投资，估值极高。但如果看真正完成的有效工作量，几乎可以忽略不计。这说明什么？说明还有一个问题没有解决，那就是专家系统（Specialist）与通才系统（Generalist）之间的矛盾。

通用机器人希望自上而下解决问题，而专家系统则是一次解决一个具体问题，逐步扩展能力。有趣的是，如果你想通过真实生产环境获得数据，那么生产环境天然更接近专家系统。因为现实中的工作往往不是无限开放的，而是带有一定结构和重复性的。例如咖啡机器人，每天都在做咖啡，订单不同，杯子位置不同，但总体流程相似。再例如物流分拣，每天都在分包裹，包裹不同，但任务本质相同。我把这种情况称为 Variational Automation（变体自动化）。不是固定自动化，也不是完全通用智能，而是在同一个任务中处理各种变化，我认为这是非常重要的中间层。

我一直在用这个视角重新思考近年来提出的各种 VLA 基准测试（Benchmark）。例如经典的任务：把桌上的物体拿起来，放进篮子里。如果换一个角度来看，我们完全可以把它理解成，在超市仓库里完成订单拣选。订单不断到来，机器人需要从货架上找到对应商品并放入订单篮中，这本质上仍然是同一个问题。

而且，这类问题其实已经可以通过传统工程方法解决，传统工程方法已经存在很多年了。我们来比较一下两种路线，对于传统工程方案，人类工程师手工设计系统，每个场景单独开发，通用性较差，而且需要大量系统集成工作。但它已经可以投入生产，可解释性强，可靠性高。今天工业自动化领域大部分系统都是这样工作的。

而另一边是 VLA，它代表了一种完全不同的愿景，希望构建一个高度通用的系统，像大语言模型一样，同一个模型完成各种任务。但目前它还没有真正成熟，它不可解释，我们无法清楚知道系统为什么做出某个决策。更重要的是，它是否足够可靠？是否可靠到能够真正投入生产？这正是两种文化冲突的核心。

我并不是想挑起对立。恰恰相反，我想寻找一种融合方式。在此之前，我们先看看目前 VLA 面临的问题。

去年秋天发布的 LIBERO-Pro Benchmark 做了一项有趣实验。某个 VLA 模型在标准测试环境中达到100%成功率，但如果只是把易拉罐移动几厘米，成功率立刻下降到17%左右。类似现象在许多任务中都出现了。也就是说，当环境变化稍微超出训练分布时，模型性能会迅速崩溃。斯坦福、DeepMind 和布里斯托大学最近的一篇论文也指出，当前模型其实并没有大家想象中那么通用，只要变化超出非常有限的范围，系统就会失效。

那么怎么办？这里我认为，两种文化或许终于有机会真正结合起来。我一直在思考，有没有一种方法能够把它们统一起来，而不是让两边继续对立，于是我开始关注 Agentic Coding。

其实早在2023年就有人提出了 Code as Policies。核心思想是，利用大语言模型生成机器人控制代码，输入任务描述，模型自动编写程序，执行任务。许多团队都在探索这一方向。有趣的是，它提供了一种全新的范式。因为这里仍然使用生成式 AI，利用预训练大语言模型，不需要额外机器人数据，而且输出的是代码，因此具有可解释性，你可以检查，可以分析，可以验证。

于是我们开始研究这种方法。今年夏天我们将在 ICML 发表一篇论文，项目名叫 CAP-X。我们建立了一整套测试框架，利用现有机器人 Benchmark 系统评估 Agentic Coding。最初，我们实现了一个简单 Agent，输入英文任务描述，Agent 自动生成代码，然后执行，结果大约达到32%的成功率，远低于人工编程水平。随后我们加入强化学习，让系统在失败后自动修改代码，不断迭代，结果性能显著提高，在特定 Benchmark 上成功率达到80%以上，已经明显优于许多 VLA 系统。

但真正让我兴奋的是另一件事，那就是过去半年迅速兴起的多智能体系统。自去年12月以来，这个方向几乎爆发式增长。Copilot、Cursor、Claude Code、OpenAI Codex、NVIDIA Nemo 等各种系统不断出现，整个领域发展非常快。不过多智能体系统有一个问题，它们很难管理大型代码库，而机器人系统恰恰拥有极其复杂的软件结构。

于是我们开始重新思考。我的学生 Eric Chen 提出，为什么不尝试用 Rust 重写部分系统？因为 Rust 的类型系统和结构化特征非常适合管理复杂程序。后来我们意识到，等等，机器人领域其实早就拥有一种成熟的结构，那就是图（Graph）。

机器人本来就在使用各种计算图，行为树（Behavior Tree）、ROS 节点图、任务图、运动规划图。这些东西已经存在很多年。于是我们产生了一个想法，既然 Code as Policies 可以生成代码，为什么不能生成图？于是我们提出Graph as Policies（GAP）。核心思想是，不是让 Agent 直接生成代码，而是生成计算图。图结构天然具有很多优势，可以分解，可以组合，可以验证，可以扩展。一个节点负责感知，一个节点负责抓取，一个节点负责运动规划，另一个节点负责任务管理。然后多个 Agent 分别负责不同节点，彼此协作，验证输入输出接口，检查约束条件，确保整个系统能够正确组装。这样就形成了一个大型图结构，例如感知子图、运动规划子图、抓取子图、执行子图等等。

接下来我们正式定义问题。我们关注的是 Variational Automation Task，其输入包括任务语言描述、环境信息、机器人配置、传感器配置、目标物体集合、状态空间、信念空间（Belief Space）及奖励函数。输出则是一个计算图，图由节点和边构成，这个图最终成为机器人执行策略。

整个系统架构如下，我们设计了一个称为 Harness 的框架。之所以叫 Harness（缰绳），是因为你必须有办法控制这些强大的 Agent，否则它们会到处乱跑。Harness 负责接收环境几何信息、任务定义、自然语言描述，然后利用大语言模型把任务拆解，构建初始计算图，接着根据具体环境实例化参数，然后进入自我学习循环，不断执行，不断评估，不断修改图结构。

Agent 特别擅长这种迭代优化过程。最终得到表现最好的图，然后部署到真实机器人上。部署阶段不再需要庞大 GPU，只需要轻量级执行器即可运行。换句话说，训练阶段复杂，执行阶段高效。

接下来我们测试了8个 Variational Automation Benchmark，其中部分来自 LIBERO，部分来自真实工业场景。下面看看结果。

第一个任务叫 Make Popcorn。机器人需要把平底锅放到炉灶上，完成爆米花制作流程。GAP 最终达到98%成功率，而且能够通过自我学习不断提升性能。随后我们把它部署到真实机器人平台，使用 Franka 机械臂，甚至真的使用 Jiffy Pop 爆米花，系统成功完成任务。

接着我们与 Bosch 合作，研究一个工业装配任务。机器人需要把工件正确放入料框，存在大量位置和姿态变化。目前 GAP 成功率已经达到95%。作为对比，人工工程师设计的系统成功率约99%，两者已经非常接近。

然后是数据中心任务，机器人需要插拔网线，这是一个很困难的问题。利用 GAP，我们达到100%成功率，而且只使用机械臂自带力传感器，没有额外硬件。

接下来回到刚才提到的超市订单任务。VLA 模型 OpenVLA 0.5 的成功率约为20%，而 GAP 在同一 Benchmark 上达到97%，而且是在大量商品种类和环境变化条件下实现的。我们还测试了真实场景，结果同样非常稳定。因为一旦图结构生成完成，系统就具有天然泛化能力，改变相机位置或者改变目标物体位置，系统仍然能够正常工作。

随后我们测试 Pack Order 任务，目标是把任意物体装入箱子，不需要识别具体类别，只需要正确装箱。这个问题有点类似 Dex-Net，结果同样非常可靠。

不过最让我兴奋的实验是下面这个。我们把 OpenVLA 0.5 和 GAP 结合起来。怎么结合？很简单。先让 GAP 负责把相机和夹爪移动到理想位置，让目标物体处于最佳观察状态，然后再调用 VLA。结果发生了什么？成功率几乎翻倍甚至三倍提升。因为 GAP 把问题限制在了 VLA 最擅长的分布范围内。这让我意识到，未来真正有前景的方向也许不是二选一，而是融合。GAP 可以帮助系统稳定工作，同时不断收集真实数据，这些数据又可以用于训练未来更强大的 Model-Free 模型。所以我并不是说答案已经确定，我只是认为，这可能是一条值得探索的道路。

以上就是我今天想分享的内容。回到最开始的话题。两种文化，Model-Based，Model-Free。也许我们终于来到一个时刻，它们开始真正融合。而这让我感到非常兴奋。谢谢大家。

Q&A 环节

提问：我想问一下，您是否考虑过使用 Stellar Laser，以及即将出现的 Java 架构？是否研究过或者考虑过它们？

Ken Goldberg：这是个很好的问题。事实上我们已经开始关注这些方向。只是由于时间节点比较紧，目前还没有真正做出来。但我们肯定会继续研究。我认为我们现在真的只是刚刚开始，还有大量开放问题等待解决。所以如果你感兴趣，我鼓励你去尝试。这正是让我兴奋的地方。我觉得未来几年我们都会持续研究这些问题。谢谢。

提问：您怎么看待验证（Verification）问题？现在生成大量代码已经变得非常容易，即使是在传统软件开发中，我们也很难验证生成的代码是否真的完成了所有预期功能。那么未来我们是不是也需要用 Agent 来自动完成验证？还是说必须采用其他更严格的方法？

Ken Goldberg：这是一个非常重要的问题。事实上，我已经安排了一次会议。等这次大会结束后，我会和一个专门研究代码验证（Code Verification）的团队讨论合作。我们计划把代码验证机制整合到系统中。目前有些事情是比较容易做到的。例如检查代码是否能够成功编译、自动修复编译错误、验证图结构是否符合规范、检查各个模块之间的连接是否正确。这些都已经可以实现。

但您说得对，更深层的问题是，如何验证系统在所有情况下都能正确工作？在我们的框架里，目前采用的方法之一是在内部仿真环境中反复测试。系统会不断尝试各种情况。而其中一个非常有趣的发展方向是让 Agent 自己提出测试案例，特别是那些边缘情况（Edge Cases）。也就是说，Agent 不只是解决问题，还主动设计最困难的测试来挑战自己。

我认为多智能体系统具备这种能力，或者至少正在朝这个方向发展。系统能够越来越严格地测试自己，不断发现潜在问题，然后持续改进。进一步说，如果这种能力能够迁移到真实世界，就更有意思了。想象一下，机器人能够自动重置环境，自动设计实验，自动执行实验，自动分析结果，然后再优化自己。这具有巨大的潜力。目前已经有人在研究类似方向。因此我对此非常期待。

提问：我很好奇您如何看待另一个趋势。近年来越来越多人开始研究机械智能（Mechanical Intelligence）和智能结构（Intelligent Structures），通过结构本身适应环境的不确定性。您认为这一方向在您所说的“两种文化融合”中处于什么位置？它对于缩小机器人数据鸿沟又能发挥什么作用？

Ken Goldberg：这是个非常好的问题。其中一个思路是，利用 VLM（视觉语言模型）或者 LLM（大语言模型）来设计结构和机构，事实上已经有不少人在尝试这样做。

我不确定今年大会上是否已经有相关论文，但确实已经出现了一些初步成果。例如让模型自动设计特定任务对应的机械结构，自动设计机构甚至自动设计机器人本体。这有点类似于今天我们看到的蛋白质设计，或者其他生成式设计任务，目前已经展现出一定潜力。

我认为这是一个非常开放、非常值得探索的研究方向。同时，这也与您刚才提到的数据问题直接相关。因为我一直强调，我们的目标并不是一步到位获得通用机器人，而是先让机器人足够好，好到有人愿意购买它，把它部署到咖啡馆，部署到仓库，部署到工厂，开始创造价值，然后收集数据，利用这些数据不断提升系统能力。从这个角度来看，机械智能和结构设计同样能够帮助机器人更快进入生产环境，进而加速数据积累。这正是我希望看到的发展路径。

提问：我一直觉得 VLA 最大的弱点之一在于缺乏对物理世界的理解。而您提出的 Graph as Policies 看起来似乎依赖 LLM 编程 Agent。那么您认为这些 LLM 编程 Agent 是否真正拥有物理世界知识？这些图结构是否真的理解物理规律和世界运行方式？

Ken Goldberg：这是一个非常有趣的问题，而且是一个非常深刻的问题。老实说，我不知道。这其实和关于 LLM 的经典争论一样，它们真的理解了吗？哲学家们至今还在争论这个问题。不过有一点很有意思，即使它们没有真正理解，它们似乎也非常擅长“表现得像理解了一样”。换句话说，我认为它们未必以人类的方式理解世界，这一点我觉得已经很明显了。但与此同时，它们确实拥有某种关于环境的表征能力。特别是当你观察这些 Agent 编程时，如果在座有人使用过这些系统，应该会有同样感受，你会惊讶于它们尝试解决问题的方式。

我记得有一个团队分享过他们的实验。他们的 Agent 在完成抓取任务时卡住了，于是它自动上网搜索相关资料，下载了几篇机器人抓取论文，阅读这些论文，然后根据论文中的方法重新设计抓取策略，最终成功解决了问题。这是非常不可思议的事情，系统能够自主完成这一系列过程，那么这是否意味着它真正理解了？我们完全可以找个酒吧，一边喝酒一边讨论几个小时。但对我来说，更重要的问题是，它是否能够做出有用的事情？在这一点上，我比自互联网诞生以来任何一次技术浪潮都更加兴奋。真的如此，我认为这项技术有可能帮助我们打破过去的分裂，让两种文化真正走到一起，并推动机器人领域实现实质性进步。

雷峰网文章

专题

ICRA 2017：创新、创业和解决方法查看更多文章