资讯 业界
此为临时链接,仅用于文章预览,将在时失效

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

作者:梁丙鉴
2026/07/01 13:45
雷峰网讯 数以十亿计的资金涌入具身智能行业,与此同时,这些机器人真正完成的有效工作却屈指可数。落地压力的迫近之下,VLA 等无模型方案和传统 Model-Based 路线之间的分歧是如此强烈,以至于某种程度上,甚至带上了意识形态的色彩。

这成为了本届国际机器人与自动化会议(ICRA)现场最引人关注的话题。在会议第二天,UC Berkeley 教授 Ken Goldberg 发表了题为《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演讲,发表了他对具身数据采集、数据飞轮、GAP 系统,以及有关具身落地种种的看法。雷峰网(公众号:雷峰网)·AI科技评论在现场发回报道。

过去几年,随着 ChatGPT、视觉语言动作模型(VLA)和人形机器人热潮兴起,依靠海量数据、深度学习和大模型驱动的 Model-Free 路线几乎成为行业主旋律,人们无比相信 Scaling  Law 将再次带我们抵达具身智能的 GPT 时刻,乃至真正的通用机器人。

对此,Ken Goldberg 提出了灵魂之问:什么时候?

“如果按照人类平均阅读速度计算,阅读完今天训练大型语言模型所使用的全部数据,大约需要10万年。而换算到机器人领域,我们目前积累的数据总量,大概只相当于几年的规模。”

具身智能数据鸿沟的抽象讨论背后,是一组恐怖的对比数据。Ken Goldberg 相信,这已经足够成为我们对“数据万能论”保持警惕的充分理由。而海量数据的反面是工程,在一条更可靠的具身落地路径上,工程架构、模块设计和物理建模仍然不可替代。

在演讲中,Ken Goldberg 回顾了自己团队著名的 Dex-Net 项目。从利用概率模型评估抓取成功率,到构建大规模仿真数据集,再到训练神经网络完成真实世界抓取,这个近十年前的尝试对于今天的具身智能仍有启示,那就是数据与工程方法的深度结合,效果远胜单纯的数据堆砌。当下对数据飞轮的讨论同样可以纳入这一框架,大规模商业部署,首先关注的必然是让机器人做出有用的事情,这离不开对工程层面的关注。

数据还是工程?对于这个困扰行业已久的问题,Ken Goldberg 认为答案或许不是二选一。当前炙手可热的 VLA 模型拥有惊人的泛化潜力,却容易在环境发生细微变化时失效。传统工程系统虽然缺乏通用性,但可靠性见长的特点却让二者看起来像是天作之合。

让大语言模型不直接控制机器人,而是生成可解释、可验证的计算图,再由多个智能体协同构建和优化系统。这就是 Ken Goldberg 在仿真、世界模型、遥操作之外,提出的一种全新融合思路。

以下是 Ken Goldberg 在 ICRA 2026 大会发表的演讲精编稿,AI 科技评论基于原英文演讲内容进行了不改原意的翻译编辑:

《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》

主讲人:Ken Goldberg, UC Berkeley

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

01

GOFE 和代码即策略,能否弥合机器人操作领域长达十万年的数据鸿沟?

今天我想讲的是“两种文化的故事”。

大概7岁的时候,我经常熬夜看《Jetsons》。有些人可能还记得,那是一部很棒的动画片。里面有一个机器人,她会做所有家务,然后陪孩子们玩。我当时觉得太棒了,从小我就一直想拥有这样的机器人。事实上,我父亲和我真的一起造过一个机器人。那是给他的铬电镀公司做的,一个机器人吊运机。它其实从来没有真正成功运行过,不过说实话,我们当时做的很多东西都没成功。

正如 Alex 提到的那样,我小时候同时对科学和艺术感兴趣。随着年龄增长,我越来越意识到这两者之间存在着一道鸿沟。这让我想起 C. P. Snow 所描述的“两种文化”——科学家和艺术家看待世界的方式截然不同。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

后来我去了卡内基梅隆大学,投入到了科学研究中,专注于解决问题。我至今仍然记得某个时刻,当所有事情突然串联起来时的感觉。那种感觉真的很奇妙,仿佛宇宙中有某种力量在推动这一切发生。与此同时,晚上我还会偷偷在实验室里用机器人创作艺术作品。我的导师 Matt Mason 后来发现了这件事,因为我把油漆洒在了地板上,所以不得不承认自己在干什么。

结果他说:“好吧,继续做下去。”他非常支持我。这件事让我非常开心。

几年后,我们完成了一个叫做 Telegarden 的项目。在互联网发展的早期阶段,我们把机器人接入网络,人们可以在线操控机器人来照料花园。再后来,我和 Katie Kuan 合作完成了一个项目。她毕业于斯坦福大学机器人学博士项目,同时也是一位职业舞者。我们一起做了一场舞蹈表演,当然跳舞的不是我,而是一台小机器人。可以说,我一直试图在科学与艺术这两种文化之间搭建桥梁。

但正如 Alex 所说,还有另外两种文化,是我后来逐渐研究并不断思考的:机器人学内部的文化,以及机器人学外部的文化。有人曾开玩笑说,一台机器人叫 Robotics(机器人学),十台月球机器人就是 Roger Biller 说的 Automation(自动化)。

我曾参与创办《IEEE Transactions on Automation Science and Engineering》,它是《IEEE Transactions on Robotics》的补充。如今这两个期刊都发展得很好。现在我们还有一个新的组织叫做 CASER,这是 Jim Hutchinson 命名的委员会,目的是探索自动化与机器人之间的协同效应。这个工作至今仍在继续,他们周四也有会议。

好了,说到“两种文化”,今天我真正想讨论的是另外一组文化。这是我在 ICRA 社区中看到的两种文化:一种是 Model-Based(基于模型),另一种是 Model-Free(无模型)。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

我认为前者可以追溯到牛顿时代。这是我们在大学里学习了很久,并且今天依然在教授的内容。它构成了机器人操作(manipulation)的核心基础,也支撑着诸如《Algorithmic Foundations of Robotics》等会议和大量学术成果。

然而到了2012年,情况发生了变化。以深度学习为代表的 Model-Free 方法取得了重大突破。最早是深度学习,然后是 Transformer,再后来是 Diffusion Model。到了2021年,人们又开始重新讨论人形机器人。

大家可能还记得,第一款“人形机器人”就是在 Tesla AI Day 上发布的。当然,它并没有真正骗过任何人。不过 Elon Musk 当时承诺:“未来 Tesla Bot 会来到这里。”那是2021年。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

这件事吸引了大量关注。随后到了2022年底,我们迎来了 ChatGPT 时刻。那天早上醒来时,我们突然意识到,图灵测试也许没有被正式宣布解决,但它实际上已经被通过了。

接下来发生了一系列重大进展。到了2023年,VLA(Vision-Language-Action)模型迅速出现。同样的思想被扩展到了机器人领域,摄像头和传感器作为输入,中间是一个大型神经网络,输出则是机器人动作,这是一个端到端系统。

我认为这真正催生了两种文化。许多人对右边这条路线——Model-Free、VLA 路线——充满热情。如果我现在做个现场投票,我相信会有大量听众支持这一方向。所以我想借今天的时间,稍微深入讨论一下这个问题。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

首先从机器人数据鸿沟开始。必须承认,自2025年以来,这个领域的发展势头越来越强。Jensen Huang 曾站在舞台上展示大量人形机器人。今年他更进一步,不仅展示人形机器人,还展示各种机器设备。他提出了“Physical Intelligence(物理智能)”和“Physical AI(物理人工智能)”的概念,并表示这将是一个价值50万亿美元的市场。这几乎相当于全球劳动力成本的一半。

因此大量资本正在涌入。所有人都在问,机器人领域什么时候会迎来属于自己的 ChatGPT 时刻?很多人的回答是,大数据解决了视觉问题,大数据解决了语言问题,因此,大数据也会解决机器人问题。对此我基本同意。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

但我真正想问的问题是,这件事什么时候会发生?我知道它终将发生,但我不知道具体时间。

视觉本质上是二维状态空间,语言可以看作一维 Token 序列,而机器人系统的状态空间维度极高。如果讨论一个人形机器人,仅仅是一双25自由度的手,加上手臂,很快就达到50维以上。与此同时,我们还没有像互联网那样的大规模机器人训练数据。那么这个类比究竟如何成立?

因此我们做了一项分析,部分基于 Michael Black 的工作。结果发现,机器人领域拥有的数据量极其微小。与大语言模型相比,几乎微不足道。于是我们提出了“机器人数据鸿沟”这个概念。

如果按照人类平均阅读速度计算,阅读完今天训练大型语言模型所使用的全部数据,大约需要10万年。而换算到机器人领域,我们目前积累的数据总量,大概只相当于几年的规模。这就是巨大的差距。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

当然,也有人会说,数据就是一切。但我想对此提出一点质疑。以 Waymo 和 Tesla 为例。Tesla 长期积累的数据量大约达到90亿英里驾驶数据。粗略估计,比 Waymo 多出约50倍。具体数字可能略有偏差,但数量级就是如此。然而在脱离接管率(disengagement)等指标上,Waymo 的表现往往更好。

当然,你可以说这与激光雷达有关。但我想借此提出一个问题:数据真的是唯一需要的东西吗?我和 Waymo 的朋友聊过这个问题。他们告诉我:“是的,我们使用了大量数据训练车辆,但系统内部仍然包含大量传统工程技术。”

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

所谓传统工程技术,意味着系统由许多模块组成。这些模块使用卡尔曼滤波器、优化器以及各种数学模型。它们被组合起来,共同完成任务。模块化系统具有明确接口,可以组合、分析和验证,这与端到端 VLA 系统形成了鲜明对比。

这正是我所说的“两种文化”,一边是基于模型的方法,另一边是无模型方法。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

很多人其实同时属于这两个阵营,比如我本人。我是 Open X-Embodiment 那篇论文的共同作者之一,那篇论文有150位作者参与。如果你去看那篇论文,它提出了一个非常重要的观点:通过在16万个不同任务上进行训练,模型正在走向通用性(generality)。

但我对此有一点疑问。如果你对这些任务做一个统计分析,看看用于描述任务的语言分布,会发现最常见的词是“pick(抓取)”、“move(移动)”、“push(推动)”。这些词出现的频率远远高于其他词。换句话说,这16万个任务中的绝大部分,其实最终都可以归结为一个非常简单的任务,把物体0拿起来,放到物体1上。而有趣的是,这正是 John Craig 机器人学教材第三章讲的内容。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

那本书写于 VLA 出现之前很多年,它给出了大量经典工程方法来解决这个任务。只要你有一个视觉模块找到目标,有一个抓取模块,有一个运动规划模块,然后整个系统就能完成任务。所以我想说的是,我非常喜欢这些 VLA 系统。它们非常有趣,也非常令人兴奋。但很多时候,传统工程方法依然能够把工作完成得很好。

再回到这两种文化。坦率地说,两者之间存在某种紧张关系,甚至带有一点意识形态色彩,有些人坚定站在某一边。我想稍微深入讨论一下。

接下来讲一个关于 Covariant Robotics 的故事。实际上,在过去45年里,我一直在研究同一个问题,机器人如何抓取物体。有人说这是因为我小时候特别笨手笨脚,这是我母亲的理论。但无论如何,人类在抓取方面确实极其擅长。

到了2012年,深度学习革命开始了。正如大家都知道的,海量数据、强大的计算能力、新的训练算法……当时我和 Shankar Sastry、Pieter Abbeel 以及几位研究生一起开设了一门机器人操作课程。课程内容基本还是传统机器人学教材里的经典工程方法,但与此同时,我们也在关注计算机视觉领域发生的事情,尤其是在图像分类和标注方面取得的巨大进展。

这些成果很大程度上来源于 ImageNet。Fei-Fei Li 系统性地收集了海量标注图像数据,于是我们开始思考,能不能把同样的思路用于抓取问题?

因此我们启动了 Dex-Net 项目。为了向 Fei-Fei Li 致敬,我们也希望建立一个大型数据集。不过不是图像标注数据。而是三维物体模型,以及针对这些物体的大量抓取方案。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

幸运的是,我的博士生 Jeff Mahler 对这个项目非常投入。他开始从互联网各处收集三维模型,许多学生也加入进来。他们清理模型、统一格式、构建数据库。一个典型的 CAD 模型可能包含上千个三角面片。对于平行夹爪而言,一次抓取对应两个接触点,也就是两个面片。因此一个物体可能对应数百万种抓取方式。

接下来我们思考,如何建模抓取过程中的不确定性?我们建立了一个概率图模型,把所有变量都看作随机变量,它们之间存在条件概率关系。最终我们关心的问题是,某一次抓取成功的概率是多少?

举个例子。对于某个标称抓取姿态,我们知道现实中一定存在误差。我们不知道真实接触点在哪里,因为物体位姿有误差,夹爪位姿有误差,物体形状有误差,质心位置也有误差。因此我们从这些概率分布中不断采样,统计成功和失败次数,然后利用蒙特卡洛积分计算成功概率。

结果如图所示:左边那个抓取成功率约为22%,右边那个抓取成功率约为92%。

这其实非常符合直觉。左边的抓取非常脆弱,一点点误差就会失败,右边则具有自校正能力,即使存在误差,依然能够成功。这才是现实中真正想要的鲁棒抓取。

接下来我们关注感知问题。我们决定使用深度传感器,因为我们关心的是物体的三维几何形状,而不是颜色或纹理。深度信息对此非常有帮助,但深度传感器本身噪声很大。如果大家使用过,就会知道,尤其面对反光表面或透明物体时,噪声会非常明显。

我们建立了一个传感器噪声模型。我们知道物体的三维 CAD 模型,于是模拟深度相机观察该物体时的结果,并加入噪声,这样我们得到一个观测值 y。它符合真实传感器的统计特性,然后把这个观测值与具体抓取动作和成功概率对应起来,这样就得到一个训练样本。接着利用云计算平台大规模生成数据。我们拥有约15000个物体模型,对数百万个抓取方案进行评估,最终获得一个巨大数据集。其中既包含大量成功样本,也包含大量失败样本。

然后我们训练神经网络。当时这是一个非常大的网络,参数规模接近十亿级。训练最终收敛,在保留测试集上表现良好。换句话说,给它一张带噪声的深度图像,再给定一个抓取姿态,它能够预测抓取成功概率,而且泛化能力很好。

接下来我们把它用于真实控制。流程是先输入一个杂乱堆放物体的料箱图像,生成大量候选抓取,利用神经网络快速评估每个抓取的成功概率,然后选择成功率最高的方案执行。

这就是2017至2018年左右的 Dex-Net 系统。左边展示的是吸盘抓取器,右边展示的是平行夹爪。如果仔细观察会发现,它并不是每次都成功,但成功率已经高得惊人,在当时属于世界领先水平。我们经常找来数百个训练集中从未出现过的物体,这些东西来自家里、车库、各种地方,系统依然能够稳定清空整个料箱。

后来这项工作获得了不少关注,甚至引起 Jeff Bezos 的兴趣。当时他是 Amazon 的 CEO,他邀请我们到现场展示系统。所有做机器人研究的人都知道,实验室里的机器人能运行是一回事,把它运到别的地方演示是另一回事,这非常让人紧张。我们必须把整套系统打包运输,而此前它从未离开过实验室。

我们担心无数问题,运输损坏、灯光变化、环境变化,还有各种不可预见情况。但幸运的是,一切居然正常工作。我们带去了三箱测试物体,Jeff Bezos 来到现场,开始亲自摆弄那些物体。

一开始系统表现得非常好,直到出现一个意外。他的助手 Ty Brady 脱下自己的鞋,走上前说,能试试抓我的鞋吗?我要告诉大家,当时我们从来没有用鞋测试过,从来没有。

当时我整个人都僵住了,但还能怎么办呢?于是他说,来吧,然后把鞋扔进料箱。我屏住呼吸,因为 Jeff Bezos 就站在那里。机器人伸出手臂,缓缓移动过去,夹住那只鞋,成功抓起。

我可以坦白说,那一刻可能是我人生中最美好的时刻之一。

高压演示环境下,一切居然成功了。第二天,我们受到巨大鼓舞。Jeff Mahler 和另外三位即将毕业的学生一起创办了公司,我也是联合创始人之一,这家公司后来发展成为 Ambi Robotics。

Ambi Robotics 的发展是一段漫长的旅程,我们持续构建和扩展整个系统,而就在这个过程中,新冠疫情爆发了。幸运的是,我们当时研究的问题——包裹分拣——被认定为关键基础设施业务,因此我们获准继续开展研发工作。后来我们开发出了一套系统,叫做 AmbiSort。

AmbiSort 的核心思想依然来自 Dex-Net。它从料箱中抓取物体,只不过这里的物体不再是零件,而是包裹。大家可以想象这个问题有多复杂,系统首先获取深度图像,然后工业机器人伸出机械臂抓取包裹,接着扫描包裹上的邮编信息。最后根据目的地,把包裹放入对应的分拣箱。

这是我们最早的一段演示视频。当时我们的愿景是,把这样的系统部署到全国各地的物流中心,因为这是几乎所有物流配送中心都会遇到的问题。很高兴的是,我们后来真的做到了。

如今系统已经部署在美国各地。我们与主要物流公司合作,他们使用 AmbiSort 系统完成自动化分拣。

这时你可能会说,等等,你刚才不是在质疑数据至上吗?Dex-Net 不就是一个依靠大量数据训练出来的系统吗?

是的,这里确实用了大量数据。但我要强调的是,仅靠数据远远不够。真正让系统运行起来的是数据 + 传统工程,大量工程设计、大量模块化系统、大量细致调试。

其中一个关键模块就是运动规划,因为机器人夹爪和手腕结构较大,它必须在非常狭窄的空间中完成复杂运动。尤其是在料箱越来越深的时候,运动规划变得极其困难。

大家都知道运动规划是机器人学里的经典问题。但当你要求它在极短时间内完成,而且环境非常拥挤时,问题就变得十分棘手。后来 Jeff Mahler 和 Jackie 提出一个非常聪明的想法,利用神经网络为运动规划提供 Warm Start。先用神经网络预测一个好的初始解,然后再进行规划,结果效果非常好,规划时间显著下降。随后又有另一批博士生创办了新公司 Jacobi Robotics,他们专门开发运动规划软件,现在已经商业化运营。

接下来我想回到“两种文化”的讨论。因为我知道,很多人此刻可能在想,这个人有点老派,他是不是不了解《The Bitter Lesson》?

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

其实我非常了解《The Bitter Lesson》,我也完全认同它。它的核心观点是,长期来看,计算能力最终会胜出。我并不是在否认这一点,我的问题始终只有一个,什么时候?这才是我整场演讲真正想讨论的问题。

因为现实摆在这里,机器人领域与大语言模型之间仍然存在五个数量级的数据差距。这就是我们面对的现实。那么数据从哪里来?我们怎样获得足够的数据?

目前主要有几条路径。第一条路径是仿真,这对于无人机来说效果非常好。你可以在仿真中训练,然后迁移到现实世界。仿真与现实之间的差距非常小,甚至已经能够击败世界级无人机竞速冠军。对于运动控制(Locomotion)也是如此。例如机器狗,今天大家看到的大量成果,都是在仿真环境中训练出来,然后成功迁移到真实世界的。对于全身运动控制而言,仿真到现实的差距相对较小,因此我们也看到了令人惊叹的成果。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

但在操作(Manipulation)领域情况完全不同,这里的仿真与现实差距非常大。原因很多,包括接触力持续变化,摩擦持续变化,物体会发生形变。尤其在人类服务场景中,大量物体都是可变形的,而操作本身又容易受到微小碰撞影响。因此经常会出现的情况是,仿真里表现完美,现实中完全失效。这就是操作领域面临的巨大挑战。

另一条路径是世界模型,过去一年大家都在讨论它。例如 Cosmos 这样的系统,它们利用海量视频进行训练。视频数据确实很多,互联网拥有丰富的视频资源。但问题在于,世界模型经常出现幻觉。例如机器人抓取任务中,模型有时会凭空生成第三根手指,或者创造根本不存在的结构,这种情况并不少见。

从视觉效果上看,世界模型似乎合理,但实际上并不理解物理世界。当然,我知道很多人在研究这个方向。未来也许会解决,但目前还没有。

第三条路径是人类遥操作。很多团队都在让人类直接操控机器人,这样可以获得高质量演示数据,如今已经形成一个庞大的产业。但坦率地说,我并不觉得这是令人向往的工作。整天坐在那里遥操作机器人,我的学生们并不喜欢做这件事。而且问题依然存在,这样究竟能收集多少数据?

于是我想提出第四条路径。讨论相对较少,但我认为非常重要,那就是真实生产环境,让机器人真正投入工作,然后从工作过程中收集数据。

以 Ambi Robotics 为例,去年我们的系统累计分拣包裹突破1亿件。这意味着什么?意味着我们记录了近1亿次抓取操作。系统会保存每一次成功和失败,我们拥有统一监控平台,监控所有部署系统,进行预测性维护,发现堵塞、故障、异常。与此同时,也在持续积累数据。截至目前,我们累计获得了约22年的机器人运行数据。注意,这22年不是自然时间,而是所有机器人工作时间累加后的总量。

这些数据是在过去4年里积累出来的,但即便如此,22年数据依然不算多,因为公司规模还不够大。我们甚至没有足够预算去处理全部数据,于是我们选取了一小部分数据进行实验,训练通用抓取模型,然后测试一种全新场景,抓取物流袋。

这与 Dex-Net 时期完全不同。袋子高度可变形,充满褶皱,而 Dex-Net 原本训练的是刚体物体。结果我们发现,真实生产数据训练出来的模型效果极好,远远优于原有数据集。

于是我们提出一个概念,Data Flywheel(数据飞轮)。先让系统投入运行,获得数据,利用数据提升性能,性能提升后卖出更多系统,部署更多机器人,收集更多数据,再进一步提升性能,形成正反馈循环。

后来我和 Leslie Kaelbling 讨论这个问题。她指出,如果系统持续增长,其实已经不仅仅是飞轮,更像是一种指数增长过程。所以我现在更愿意称之为Data Avalanche(数据雪崩)。我认为,这才是机器人获取大规模数据的核心路径。

接下来我要讲的是最近六个月一直在思考的新内容,就从“通用机器人(General Robotics)”开始。这是现在最热门的话题之一,Jensen Huang 在谈,Elon Musk 在谈,大量公司都在谈。核心目标是构建一个能够适应所有场景的通用机器人模型,这个愿景非常吸引人。

但一个月前,Dyna 创始人 Yu Gang 发了一篇很有意思的文章,我建议大家去看看。他指出,通用机器人公司已经融资数十亿美元,超过140家公司获得投资,估值极高。但如果看真正完成的有效工作量,几乎可以忽略不计。这说明什么?说明还有一个问题没有解决,那就是专家系统(Specialist)与通才系统(Generalist)之间的矛盾。

通用机器人希望自上而下解决问题,而专家系统则是一次解决一个具体问题,逐步扩展能力。有趣的是,如果你想通过真实生产环境获得数据,那么生产环境天然更接近专家系统。因为现实中的工作往往不是无限开放的,而是带有一定结构和重复性的。例如咖啡机器人,每天都在做咖啡,订单不同,杯子位置不同,但总体流程相似。再例如物流分拣,每天都在分包裹,包裹不同,但任务本质相同。我把这种情况称为 Variational Automation(变体自动化)。不是固定自动化,也不是完全通用智能,而是在同一个任务中处理各种变化,我认为这是非常重要的中间层。

我一直在用这个视角重新思考近年来提出的各种 VLA 基准测试(Benchmark)。例如经典的任务:把桌上的物体拿起来,放进篮子里。如果换一个角度来看,我们完全可以把它理解成,在超市仓库里完成订单拣选。订单不断到来,机器人需要从货架上找到对应商品并放入订单篮中,这本质上仍然是同一个问题。

而且,这类问题其实已经可以通过传统工程方法解决,传统工程方法已经存在很多年了。我们来比较一下两种路线,对于传统工程方案,人类工程师手工设计系统,每个场景单独开发,通用性较差,而且需要大量系统集成工作。但它已经可以投入生产,可解释性强,可靠性高。今天工业自动化领域大部分系统都是这样工作的。

而另一边是 VLA,它代表了一种完全不同的愿景,希望构建一个高度通用的系统,像大语言模型一样,同一个模型完成各种任务。但目前它还没有真正成熟,它不可解释,我们无法清楚知道系统为什么做出某个决策。更重要的是,它是否足够可靠?是否可靠到能够真正投入生产?这正是两种文化冲突的核心。

我并不是想挑起对立。恰恰相反,我想寻找一种融合方式。在此之前,我们先看看目前 VLA 面临的问题。

去年秋天发布的 LIBERO-Pro Benchmark 做了一项有趣实验。某个 VLA 模型在标准测试环境中达到100%成功率,但如果只是把易拉罐移动几厘米,成功率立刻下降到17%左右。类似现象在许多任务中都出现了。也就是说,当环境变化稍微超出训练分布时,模型性能会迅速崩溃。斯坦福、DeepMind 和布里斯托大学最近的一篇论文也指出,当前模型其实并没有大家想象中那么通用,只要变化超出非常有限的范围,系统就会失效。

那么怎么办?这里我认为,两种文化或许终于有机会真正结合起来。我一直在思考,有没有一种方法能够把它们统一起来,而不是让两边继续对立,于是我开始关注 Agentic Coding。

其实早在2023年就有人提出了 Code as Policies。核心思想是,利用大语言模型生成机器人控制代码,输入任务描述,模型自动编写程序,执行任务。许多团队都在探索这一方向。有趣的是,它提供了一种全新的范式。因为这里仍然使用生成式 AI,利用预训练大语言模型,不需要额外机器人数据,而且输出的是代码,因此具有可解释性,你可以检查,可以分析,可以验证。

于是我们开始研究这种方法。今年夏天我们将在 ICML 发表一篇论文,项目名叫 CAP-X。我们建立了一整套测试框架,利用现有机器人 Benchmark 系统评估 Agentic Coding。最初,我们实现了一个简单 Agent,输入英文任务描述,Agent 自动生成代码,然后执行,结果大约达到32%的成功率,远低于人工编程水平。随后我们加入强化学习,让系统在失败后自动修改代码,不断迭代,结果性能显著提高,在特定 Benchmark 上成功率达到80%以上,已经明显优于许多 VLA 系统。

但真正让我兴奋的是另一件事,那就是过去半年迅速兴起的多智能体系统。自去年12月以来,这个方向几乎爆发式增长。Copilot、Cursor、Claude Code、OpenAI Codex、NVIDIA Nemo 等各种系统不断出现,整个领域发展非常快。不过多智能体系统有一个问题,它们很难管理大型代码库,而机器人系统恰恰拥有极其复杂的软件结构。

于是我们开始重新思考。我的学生 Eric Chen 提出,为什么不尝试用 Rust 重写部分系统?因为 Rust 的类型系统和结构化特征非常适合管理复杂程序。后来我们意识到,等等,机器人领域其实早就拥有一种成熟的结构,那就是图(Graph)。

机器人本来就在使用各种计算图,行为树(Behavior Tree)、ROS 节点图、任务图、运动规划图。这些东西已经存在很多年。于是我们产生了一个想法,既然 Code as Policies 可以生成代码,为什么不能生成图?于是我们提出Graph as Policies(GAP)。核心思想是,不是让 Agent 直接生成代码,而是生成计算图。图结构天然具有很多优势,可以分解,可以组合,可以验证,可以扩展。一个节点负责感知,一个节点负责抓取,一个节点负责运动规划,另一个节点负责任务管理。然后多个 Agent 分别负责不同节点,彼此协作,验证输入输出接口,检查约束条件,确保整个系统能够正确组装。这样就形成了一个大型图结构,例如感知子图、运动规划子图、抓取子图、执行子图等等。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

接下来我们正式定义问题。我们关注的是 Variational Automation Task,其输入包括任务语言描述、环境信息、机器人配置、传感器配置、目标物体集合、状态空间、信念空间(Belief Space)及奖励函数。输出则是一个计算图,图由节点和边构成,这个图最终成为机器人执行策略。

整个系统架构如下,我们设计了一个称为 Harness 的框架。之所以叫 Harness(缰绳),是因为你必须有办法控制这些强大的 Agent,否则它们会到处乱跑。Harness 负责接收环境几何信息、任务定义、自然语言描述,然后利用大语言模型把任务拆解,构建初始计算图,接着根据具体环境实例化参数,然后进入自我学习循环,不断执行,不断评估,不断修改图结构。

Agent 特别擅长这种迭代优化过程。最终得到表现最好的图,然后部署到真实机器人上。部署阶段不再需要庞大 GPU,只需要轻量级执行器即可运行。换句话说,训练阶段复杂,执行阶段高效。

接下来我们测试了8个 Variational Automation Benchmark,其中部分来自 LIBERO,部分来自真实工业场景。下面看看结果。

第一个任务叫 Make Popcorn。机器人需要把平底锅放到炉灶上,完成爆米花制作流程。GAP 最终达到98%成功率,而且能够通过自我学习不断提升性能。随后我们把它部署到真实机器人平台,使用 Franka 机械臂,甚至真的使用 Jiffy Pop 爆米花,系统成功完成任务。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

接着我们与 Bosch 合作,研究一个工业装配任务。机器人需要把工件正确放入料框,存在大量位置和姿态变化。目前 GAP 成功率已经达到95%。作为对比,人工工程师设计的系统成功率约99%,两者已经非常接近。

然后是数据中心任务,机器人需要插拔网线,这是一个很困难的问题。利用 GAP,我们达到100%成功率,而且只使用机械臂自带力传感器,没有额外硬件。

接下来回到刚才提到的超市订单任务。VLA 模型 OpenVLA 0.5 的成功率约为20%,而 GAP 在同一 Benchmark 上达到97%,而且是在大量商品种类和环境变化条件下实现的。我们还测试了真实场景,结果同样非常稳定。因为一旦图结构生成完成,系统就具有天然泛化能力,改变相机位置或者改变目标物体位置,系统仍然能够正常工作。

随后我们测试 Pack Order 任务,目标是把任意物体装入箱子,不需要识别具体类别,只需要正确装箱。这个问题有点类似 Dex-Net,结果同样非常可靠。

不过最让我兴奋的实验是下面这个。我们把 OpenVLA 0.5 和 GAP 结合起来。怎么结合?很简单。先让 GAP 负责把相机和夹爪移动到理想位置,让目标物体处于最佳观察状态,然后再调用 VLA。结果发生了什么?成功率几乎翻倍甚至三倍提升。因为 GAP 把问题限制在了 VLA 最擅长的分布范围内。这让我意识到,未来真正有前景的方向也许不是二选一,而是融合。GAP 可以帮助系统稳定工作,同时不断收集真实数据,这些数据又可以用于训练未来更强大的 Model-Free 模型。所以我并不是说答案已经确定,我只是认为,这可能是一条值得探索的道路。

以上就是我今天想分享的内容。回到最开始的话题。两种文化,Model-Based,Model-Free。也许我们终于来到一个时刻,它们开始真正融合。而这让我感到非常兴奋。谢谢大家。

UC Berkeley Ken Goldberg 教授:具身数据规模落后十万年,你仍然相信数据万能吗?| ICRA 2026

02

Q&A 环节

提问:我想问一下,您是否考虑过使用 Stellar Laser,以及即将出现的 Java 架构?是否研究过或者考虑过它们?

Ken Goldberg:这是个很好的问题。事实上我们已经开始关注这些方向。只是由于时间节点比较紧,目前还没有真正做出来。但我们肯定会继续研究。我认为我们现在真的只是刚刚开始,还有大量开放问题等待解决。所以如果你感兴趣,我鼓励你去尝试。这正是让我兴奋的地方。我觉得未来几年我们都会持续研究这些问题。谢谢。

提问:您怎么看待验证(Verification)问题?现在生成大量代码已经变得非常容易,即使是在传统软件开发中,我们也很难验证生成的代码是否真的完成了所有预期功能。那么未来我们是不是也需要用 Agent 来自动完成验证?还是说必须采用其他更严格的方法?

Ken Goldberg:这是一个非常重要的问题。事实上,我已经安排了一次会议。等这次大会结束后,我会和一个专门研究代码验证(Code Verification)的团队讨论合作。我们计划把代码验证机制整合到系统中。目前有些事情是比较容易做到的。例如检查代码是否能够成功编译、自动修复编译错误、验证图结构是否符合规范、检查各个模块之间的连接是否正确。这些都已经可以实现。

但您说得对,更深层的问题是,如何验证系统在所有情况下都能正确工作?在我们的框架里,目前采用的方法之一是在内部仿真环境中反复测试。系统会不断尝试各种情况。而其中一个非常有趣的发展方向是让 Agent 自己提出测试案例,特别是那些边缘情况(Edge Cases)。也就是说,Agent 不只是解决问题,还主动设计最困难的测试来挑战自己。

我认为多智能体系统具备这种能力,或者至少正在朝这个方向发展。系统能够越来越严格地测试自己,不断发现潜在问题,然后持续改进。进一步说,如果这种能力能够迁移到真实世界,就更有意思了。想象一下,机器人能够自动重置环境,自动设计实验,自动执行实验,自动分析结果,然后再优化自己。这具有巨大的潜力。目前已经有人在研究类似方向。因此我对此非常期待。

提问:我很好奇您如何看待另一个趋势。近年来越来越多人开始研究机械智能(Mechanical Intelligence)和智能结构(Intelligent Structures),通过结构本身适应环境的不确定性。您认为这一方向在您所说的“两种文化融合”中处于什么位置?它对于缩小机器人数据鸿沟又能发挥什么作用?

Ken Goldberg:这是个非常好的问题。其中一个思路是,利用 VLM(视觉语言模型)或者 LLM(大语言模型)来设计结构和机构,事实上已经有不少人在尝试这样做。

我不确定今年大会上是否已经有相关论文,但确实已经出现了一些初步成果。例如让模型自动设计特定任务对应的机械结构,自动设计机构甚至自动设计机器人本体。这有点类似于今天我们看到的蛋白质设计,或者其他生成式设计任务,目前已经展现出一定潜力。

我认为这是一个非常开放、非常值得探索的研究方向。同时,这也与您刚才提到的数据问题直接相关。因为我一直强调,我们的目标并不是一步到位获得通用机器人,而是先让机器人足够好,好到有人愿意购买它,把它部署到咖啡馆,部署到仓库,部署到工厂,开始创造价值,然后收集数据,利用这些数据不断提升系统能力。从这个角度来看,机械智能和结构设计同样能够帮助机器人更快进入生产环境,进而加速数据积累。这正是我希望看到的发展路径。

提问:我一直觉得 VLA 最大的弱点之一在于缺乏对物理世界的理解。而您提出的 Graph as Policies 看起来似乎依赖 LLM 编程 Agent。那么您认为这些 LLM 编程 Agent 是否真正拥有物理世界知识?这些图结构是否真的理解物理规律和世界运行方式?

Ken Goldberg:这是一个非常有趣的问题,而且是一个非常深刻的问题。老实说,我不知道。这其实和关于 LLM 的经典争论一样,它们真的理解了吗?哲学家们至今还在争论这个问题。不过有一点很有意思,即使它们没有真正理解,它们似乎也非常擅长“表现得像理解了一样”。换句话说,我认为它们未必以人类的方式理解世界,这一点我觉得已经很明显了。但与此同时,它们确实拥有某种关于环境的表征能力。特别是当你观察这些 Agent 编程时,如果在座有人使用过这些系统,应该会有同样感受,你会惊讶于它们尝试解决问题的方式。

我记得有一个团队分享过他们的实验。他们的 Agent 在完成抓取任务时卡住了,于是它自动上网搜索相关资料,下载了几篇机器人抓取论文,阅读这些论文,然后根据论文中的方法重新设计抓取策略,最终成功解决了问题。这是非常不可思议的事情,系统能够自主完成这一系列过程,那么这是否意味着它真正理解了?我们完全可以找个酒吧,一边喝酒一边讨论几个小时。但对我来说,更重要的问题是,它是否能够做出有用的事情?在这一点上,我比自互联网诞生以来任何一次技术浪潮都更加兴奋。真的如此,我认为这项技术有可能帮助我们打破过去的分裂,让两种文化真正走到一起,并推动机器人领域实现实质性进步。

雷峰网文章

长按图片保存图片,分享给好友或朋友圈

正在生成分享图...

取消
相关文章