英伟达 Jim Fan：复刻NLP的成功路，用通用模型开启具身智能的GPT-3时刻

作者：刘洁

2024/09/23 11:49

还记得那只“骑”瑜伽球的机械狗吗？

过马路，走草地都稳稳当当，就算瑜伽球被放气也能如履平地。

怪不得之前有网友惊叹：机器人马上就要统治世界了吧？

英伟达 Jim Fan：复刻NLP的成功路，用通用模型开启具身智能的GPT-3时刻

赋予这只 Unitree Go1 的四足机器人能骑瑜伽球能力的，是英伟达十大项目之一Eureka的扩展研究——Dr. Eureka。它的特殊之处在于，它将虚拟世界中的训练成果直接转移到现实世界，无需微调，直接有效。

这项研究的论文作者之一是英伟达的高级科学家 Jim Fan，他主导了英伟达的具身智能研究。

Jim Fan 曾是 OpenAI 的第一个实习生，这段经历让他首次接触到通用人工智能（AGI）的研究。不过那时候还没有 Transformer，他通过强化学习得到的泛化结果并不理想。

2016年， Jim Fan 去斯坦福读博，师从李飞飞教授，转而研究具身智能领域直至现在。但他并没有忘记最开始研究 AGI 的经历，即使换了领域也没放弃自己对通用模型的兴趣。

Jim Fan 解释说，机械狗只是他在通用“基础智能体”探索中的一个实例，他的个人使命就是解决具身智能问题。

Jim Fan 领导的 GEAR 团队，全称“通用具身智能体研究”，其核心工作可以概括为“生成动作”，即构建能够在虚拟和物理世界中执行动作的具身智能体。前者属于游戏AI和模拟，后者就是我们平常说的机器人。

从 ChatGPT 就能看出，通用模型强大的统一性和拓展性才是 LLM 快速发展的关键。因此，Jim Fan 决定学习 NLP 的经验，把GEAR团队的研究重点放在建立通用基础模型的 GR00T 项目上。

Jim Fan 还认为，在未来，虚拟世界和物理世界将融合成一个单一维度上的不同现实。

机械狗使用的领域随机化技术可以在具有不同物理参数的虚拟环境中训练智能体，使智能体能够泛化到现实世界。只要虚拟环境足够多、足够贴近物理世界，还有一个能掌握所有虚拟环境的智能体，那么未来的物理世界也可以被看作为是虚拟世界的一部分。

虽然机械狗开了个好头，但模拟到现实的迁移真的太难了。Jim Fan 表示，由于数据收集的种种限制，现有模型未能充分发挥 Transformer 架构的潜力。

难归难，具身智能和通用具身智能体的希望还是很大的。

经历了前几年的“沉寂期”后，得益于硬件升级、材料成本下降和基础模型能力提升的三重助力，具身智能领域总算迎来了新的复苏。雷峰网

Jim Fan 表示，具身智能热潮再启，优势在我。要知道，英伟达不仅坐拥芯片和模型，还有别家比不过的庞大计算资源和扎实的模拟技术基础。

更多关于具身智能和通用基础智能体的细节讨论可以点击下方链接，观看 Jim Fan 在红杉资本 Traning Data 播客节目中的详细分享。

https://www.youtube.com/watch?v=yMGGpMyW_vw&t=125s

雷峰网摘取了部分播客内容，做了不改原意的精编处理：

从 OpenAI 到英伟达

Sonya Huang：我听说你是 OpenAI 的首位实习生。能否分享一下你的经历，告诉我们你是怎么走到现在的？

Jim Fan：当然可以。2016 年夏天，有朋友告诉我城里有个新的创业公司，建议我去看看。当时我刚被录取为博士生，那个夏天比较空闲，于是我决定去那家公司一探究竟。结果那家公司就是 OpenAI。在我加入 OpenAI 时，我们已经在讨论通用人工智能（AGI）了。

当时，我的导师是 Andrej Karpathy 和 Ilya Sutskever。我们一起合作了一个项目，叫做“World of Bits”。这个项目的想法非常简单：我们想构建一个 AI 智能体，让它能够读取计算机屏幕上的像素，然后控制键盘和鼠标。你可以想象，这种界面非常通用——无论是回复邮件、玩游戏还是浏览网页，都可以通过这种像素到键盘鼠标的映射来实现。

这是我在 OpenAI 的第一次 AGI 尝试，也是我在 AI 智能体研究的起点。

Stephanie Zhan：当时你们在使用智能体时遇到了哪些挑战？你觉得有哪些突破？

Jim Fan：当时我们主要使用的是强化学习技术。2016 年还没有 Transformer。

虽然强化学习在特定任务上表现不错，但它的泛化能力有限。我们无法让智能体根据任意语言指令执行各种任务，比如使用键盘和鼠标。

因此，虽然智能体在我们设计的任务中可以正常工作，但它不能真正泛化到其他任务上。

这也是我进入下一个研究阶段的起点。

我去了斯坦福大学，在李飞飞教授的指导下攻读博士学位，开始专注于计算机视觉和具身智能。从 2016 年到 2021 年，在斯坦福的期间，我见证了计算机视觉实验室的研究从静态视觉（如图像和视频识别）转向具身视觉，也就是让智能体在交互环境中学习感知并采取行动。这种环境可以是虚拟的（在模拟中），也可以是现实世界中的物理环境。

这就是我在博士期间转向具身智能的过程。

博士毕业后，我加入了英伟达，继续从事具身智能的研究。我把博士期间的研究带到了英伟达，并一直在这个领域工作至今。

Sonya Huang：你领导了英伟达的“具身智能”计划。能否简单介绍一下这个项目的意义，以及你们希望达成的目标？

Jim Fan：我目前共同领导的团队叫做 GEAR，全称是“通用具身智能体研究”。我们的核心工作可以用一个词概括——“生成行动”。

我们致力于构建具身智能体，这些智能体能够在不同环境中执行动作。具体来说，如果这些动作发生在虚拟世界中，我们的工作就涉及游戏 AI 和模拟；而如果发生在现实世界中，那就是机器人技术。

今年三月的 GTC 大会上，Jensen 发布了名为“Project GR00T”的项目，这是英伟达在打造人形机器人基础模型方面的“登月计划”，也是 GEAR 团队当前的重点。

我们的目标是为人形机器人，甚至更多领域的智能机器人，构建强大的 AI 大脑。

英伟达 Jim Fan：复刻NLP的成功路，用通用模型开启具身智能的GPT-3时刻

Stephanie Zhan：你认为英伟达在这一领域的竞争优势是什么？

Jim Fan：这是一个很好的问题。

首先，英伟达的一大优势是计算资源。所有这些基础模型的扩展都需要巨大的计算能力，而我们相信 Scaling Law 的重要性。虽然我们已经对类似 L 模型的 Scaling Law 进行了研究，但具身智能和机器人领域的 Scaling Law 仍然需要深入探讨，我们正在积极进行这方面的工作。

英伟达的第二个强项是模拟。作为一家曾经专注于图形的公司，英伟达在物理模拟、渲染以及 GPU 实时加速方面积累了丰富的专业知识。这些技术在构建机器人时发挥了重要作用，我们在这方面的积累极大地推动了我们的研究。

Stephanie Zhan：对我来说，英伟达建设 GR00T 的一个有趣之处在于，你之前提到的，英伟达拥有芯片和模型本身。你认为英伟达可以如何在自有芯片上优化 GR00T？

Jim Fan：在三月的 GTC 大会上，Jensen 还发布了下一代边缘计算芯片，名为 Jesson Sword，这一发布与项目 GR00T 的发布同步进行。

我们的计划是将这些芯片（包括 J 和 Thor 系列）与基础模型项目 GR00T、以及我们在过程中开发的模拟和实用工具结合起来，形成一个统一的解决方案，打造一个一体化的计算平台，专为人形机器人和智能机器人设计。

我特别喜欢 Jensen 的一句话，他曾说：“所有能移动的东西最终都会变得自主。”我也非常认同这一观点。

虽然现在还没有完全实现，但我们相信，未来十年或更长时间后，智能机器人将会像 iPhone 一样普及。因此，我们现在就需要开始为这个未来做好准备。

人形机器人

机器人的 GPT-3 时刻和 Scaling Law

Stephanie Zhan：为什么你认为许多行业仍然非常重视真实世界的数据呢？

Jim Fan：实际上，我们确实需要各种类型的数据，因为单靠模拟数据或真实世界数据都远远不够。因此，在 GEAR 团队中，我们将数据策略分为三大类：

互联网规模的数据：包括所有在线的文本和视频。

模拟数据：我们使用英伟达的模拟工具生成大量合成数据。

真实的机器人数据：通过远程操作机器人来收集和记录实际操作中的数据。

我相信，成功的机器人战略需要有效整合这三类数据，以提供全面且统一的解决方案。这种综合的数据策略能够更好地支持机器人在各种环境中的表现和适应性。

Sonya Huang：我们之前讨论过在构建机器人基础模型时数据的瓶颈问题。你怎么看待这个问题？具体来说，解决这个问题需要什么样的高质量数据？

Jim Fan：我们讨论的三种数据类型都有各自的优缺点。

首先，互联网数据种类繁多，包含丰富的常识信息，可以帮助我们了解人类如何与物体互动，但不包含机器人的动作控制信号，因此不能直接获得机器人的动作数据。

其次，模拟数据可以提供详细的动作数据并观察其效果，数据几乎是无限的且采集效率高。但模拟和现实之间仍存在差距，比如物理效果和视觉效果不完全一致，场景也不如现实世界多样。

最后，真实的机器人数据来自真实世界，没有模拟与现实的差距，但采集成本高，需要人工操作所以采集速度受限。

因此，最佳的策略是综合这三种数据的优点，弥补彼此的不足。

Sonya Huang：如果你能展望一下未来五年或十年，你希望你们的团队能够实现哪些梦想和成就？

Jim Fan：虽然这只是我的预测，但我希望在接下来的两到三年内，我们能够看到机器人基础模型的突破。这将类似于机器人领域的GPT-3时刻。

然而，机器人进入人们日常生活不仅仅是技术问题，还涉及经济性、大规模生产能力、硬件安全性、隐私和法规等多个方面。

这些因素可能会延缓机器人的普及，因此时间表会比较难以预测。但我确实希望在未来两到三年内看到研究取得实质性进展。

Stephanie Zhan：你如何定义人工智能机器人的GPT-3时刻？

Jim Fan：我将机器人视为两个部分：系统一和系统二。这一概念来源于《思考，快与慢》。

系统一涉及低层次的、无意识的动作控制，比如握杯子时的手指运动。而系统二则是深思熟虑的推理和规划。

GPT-3时刻指的是机器人在系统一方面的突破。比如，“打开”这个词在不同情境下有不同含义，人类自然理解这些含义，但目前的机器人模型还未能在这些低层次动作控制上进行有效泛化。

我期待未来能出现这样的模型。

Sonya Huang：那么，关于系统二的思考呢？你认为我们如何才能实现这一点？大型语言模型（LLM）领域的一些推理努力是否会对机器人领域有所启发？

Jim Fan：确实有启发。

目前的模型在系统二的推理和规划方面已有进展。但将系统二与系统一结合是个挑战。我们需要决定是用一个统一的模型，还是分开使用系统一和系统二，并让它们互相沟通。

整体模型的维护很简单，但具体的控制比较复杂，分层方法可能更有效。如何在这两种系统间进行有效沟通仍不明确，这将是未来的研究重点。

Sonya Huang：你认为我们能在系统一思维方面取得突破吗？是通过规模和 Transformer 的提升，还是更多依赖于运气？

Jim Fan：我希望我们的数据策略能帮助实现突破。Transformer 的潜力尚未完全发挥。

我们需要整合互联网数据、模拟数据和真实机器人数据，一旦在数据管道中扩大规模，并将高质量的动作数据标记化后传递给 Transformer，可能会看到新特性。

我称之为具身智能的 Scaling Law，现在只是开始。

通用模型

Sonya Huang：你为什么会专注于类人机器人（humanoid robots）？

Jim Fan：有几个实际的原因。首先，类人机器人训练起来相对容易，因为网上有大量以人类为中心的数据和视频，这些数据记录了我们日常的活动。由于类人机器人的形态接近人类，它们能够更好地利用这些数据，尤其是五指操作的场景。掌握了类人机器人技术后，我们可以将这些技术迁移到其他类型的机器人，从而实现更广泛的通用性。

Stephanie Zhan：所以你们现在只专注于训练类人机器人，而不是机器人手臂或机器人狗？

Jim Fan：是的，目前我们的重点确实是类人机器人。不过，我们开发的管道，包括模拟和真实机器人工具，具备了足够的通用性，未来可以适应其他机器人平台。

我们的目标是构建一个广泛适用的工具，以便在未来可以应用于多种机器人形态。

Sonya Huang：你提到了很多次“通用”这个词，你为什么选择了通用的方法？另外，你认为 Richard Sutton 的“更惨的教训”是否在机器人领域也适用？

Jim Fan：我认为通用模型确实是值得追求的。我先讲讲自然语言处理（NLP）的成功故事。

在 ChatGPT 和 GPT-3 出现之前，NLP 领域有很多专用的模型和流程，用于翻译、编码、数学运算和创意写作等。这些模型和流程都是为特定任务量身定做的专用模型。

但 ChatGPT 的出现将这些功能统一到一个通用模型中。GPT-3和ChatGPT作为通用模型，可以被提示、微调和提炼，以适应各种专用任务。

通用模型通常比专用模型更强大，更易于维护，因为它们只需要一个API来处理输入和输出。

在机器人领域，我们希望借鉴 NLP 的成功经验。

目前大多数机器人应用仍处于专用阶段，使用特定的硬件、数据和流程。GR00T 的目标是建立一个通用基础模型，首先在类人机器人上应用，之后可以推广到其他机器人形态。

一旦我们有了这样的通用模型，我们就可以对其进行微调和提炼，以应对特定的机器人任务。

尽管短期内专注于特定任务会更容易，但英伟达让我们相信，未来属于通用模型。虽然开发周期较长且面临更多复杂的研究问题，但这是我们追求的主要目标。

机器人领域的复兴

Sonya Huang：你们的研究中有没有特别值得强调的成果？有没有什么让你对你们的方法感到乐观或充满信心的地方？

Jim Fan：确实有一个值得特别提到的成果，那就是我们的 Urea 项目。我们展示了一个五指机器人手能够成功转笔的任务。

这个任务对我来说尤其具有个人意义，因为我小时候尝试转笔总是做得不好。如果我自己去做现场演示，我可能会搞砸，但我们的机器人手却能轻松完成。

英伟达 Jim Fan：复刻NLP的成功路，用通用模型开启具身智能的GPT-3时刻

这项研究的关键在于，我们使用了 L 模型来编写代码，这些代码用于英伟达开发的 IS6 Sim API 模拟器。

L模型生成的代码定义了奖励函数，这个函数用于规范我们期望的理想行为。机器人按照奖励函数的指导进行操作，正确执行任务会获得奖励，错误则会受到惩罚。

通常，奖励函数的设计是由专家进行的，这需要大量的专业知识和手动操作。而 Urea 项目通过自动化设计奖励函数，使机器人能够完成复杂的任务，如转笔。

这个通用技术不仅限于转笔，我们计划将其应用于更多任务，并在英伟达的模拟API中生成新的任务。这为我们提供了巨大的发展空间。

Sonya Huang：你认为这次机器人领域的复兴原因是什么？五年前，研究人员尝试用机器人手解决魔方等问题时，曾有过一段幻灭期。现在这个领域又重新活跃起来，你认为有什么不同？

Jim Fan：现在有几个关键因素使情况不同。

首先是硬件的进步。近年来，新型机器人硬件的出现速度非常快。例如，特斯拉正在研发 Optimus，波士顿动力等公司也不断推出新技术，还有很多初创公司进入这一领域。这些新硬件更先进，例如更灵活的机械手和更高的可靠性，这是一个重要因素。

其次是价格的下降，类人机器人的价格显著降低。2001 年，NASA 开发的人形机器人 Robonaut 价格超过 150 万美元。而最近一些公司能将人形机器人的价格降到约 3 万美元，这相当于一辆汽车的价格。

此外，成熟产品的价格往往接近原材料成本。人形机器人通常只需汽车原材料的 4%，所以未来几年我们可能会看到价格继续下降，甚至出现指数级的降幅，使这些先进硬件变得更加实惠。

第三个因素是基础模型的进展。我们现在看到的前沿模型如 GPT、Claude 和 Llamas等在推理和规划方面取得了显著进展。这些语言模型不仅能够扩展到新场景，还能编写代码。我们在 Urea 项目中就是利用这些语言模型的编码能力来开发新的机器人解决方案。

此外，跨模态模型的兴起也改善了计算机视觉和感知能力。这些成功案例鼓励我们继续追求机器人基础模型，利用前沿模型的泛化能力，再结合动作生成技术，推动类人机器人的发展。

虚拟世界研究

Minecraft的探索

Sonya Huang：你最初的研究主要集中在虚拟世界。能谈谈你为什么对Minecraft感兴趣，以及它与机器人技术的关系吗？虚拟世界对你来说有什么特别的吸引力？

Jim Fan：我的目标是解决具身智能的问题，包括游戏和仿真，这也是我对虚拟世界特别感兴趣的原因。我喜欢玩游戏，所以对 Minecraft 特别感兴趣。我不是特别擅长 Minecraft，这也是我希望 AI 能弥补我的技术不足的原因。

我做过两个相关的游戏项目。第一个是 Mine Dojo，我们开发了一个平台来在 Minecraft 中训练通用智能体。Minecraft 是一个开放的3D世界，你可以自由探索和创造。我们从互联网上收集了大量数据，如游戏视频和相关讨论，用这些数据训练模型玩 Minecraft。

第二个项目是 Voyager。在 GPT-4 出现后，我们尝试将编程视为一种行动，开发了 Voyager Agent。它通过编写代码与 Minecraft 互动。

我们用 API 将 Minecraft 的世界转换为文本，然后让 Agent 编写代码。Agent 在遇到错误时会得到反馈并修正程序，逐步积累技能。所有的技能被保存到一个库中，未来可以重复使用。

此外，Voyager还有“自动课程”（Automatic Curriculum）机制，能够自我判断掌握了什么，提出合适的任务，帮助它不断进步。

智能体的优化

Sonya Huang：为什么虚拟世界的研究如此丰富？虚拟世界中的问题解决与物理世界的问题解决有什么联系？

Jim Fan：尽管游戏和机器人看起来不同，但它们其实有很多相似之处。两者都涉及到具身智能体，输入包括视频流和传感器数据，输出是行为。

在游戏中，这些行为是键盘和鼠标操作；在机器人中，则是电机控制。无论是虚拟还是物理智能体，都需要在环境中探索并收集数据，这就是强化学习和自我探索的基本原则。

不过，机器人面临的一个挑战是如何解决模拟与现实之间的差距。模拟中的物理和渲染不完美，将模拟中的学习迁移到现实世界很困难。

游戏则没有这个问题，因为训练和测试都在同一个虚拟环境中。

这是虚拟世界和物理世界的主要区别。

去年，我提出了一个概念，称为“基础智能体”。我相信未来会有一个模型能够同时适用于虚拟和物理智能体。

基础智能体有三个方面的泛化能力：

能够完成的技能；

能够控制的体态或形态；

能够掌握的世界或现实。

我希望未来能有一个单一模型，可以在不同的机器人形态和智能体形态上完成各种技能，并在多种虚拟或现实世界中泛化。这是我们团队追求的最终愿景。

Stephanie Zhan：你关于游戏世界中的智能体有哪些个人梦想？你希望看到AI智能体在游戏世界中有哪些创新？

Jim Fan：我特别期待两个方面。首先是“活”NPC的出现。如果NPC能够与玩家互动、记住对话并影响游戏情节，这样每个人的游戏体验都会不同，增加了游戏的重玩价值。

其次是游戏世界的实时生成。将生成3D模型、视频和故事情节的技术结合起来，让游戏世界在玩家互动中实时生成，这将创造一个真正开放的体验，非常令人兴奋。

Stephanie Zhan：关于智能体的能力需求，你认为需要GPT-4级别的能力，还是像Llama 8B这样的模型就足够了？

Jim Fan：智能体需要具备以下能力：有趣的对话、稳定的个性、长期记忆，并能在世界中行动。虽然 Llama 模型已经做得不错，但仍不足以产生非常多样化和吸引人的行为。

另外，推理成本也是一个问题。如果智能体要提供给玩家使用，那么它们要么需要在云端低成本托管，要么需要在设备上本地运行，否则在成本方面将难以扩展。

Sonya Huang：你认为虚拟世界的工作是否主要是为了实现现实世界中的目标？还是虚拟世界的工作本身就是值得追求的？物理世界和虚拟世界的优先级如何？

Jim Fan：我认为虚拟世界和物理世界最终会融合成一个统一的现实。

例如，领域随机化技术通过在成千上万种不同的模拟环境中训练机器人来实现这一点。

每种模拟环境都有不同的物理参数，比如重力和摩擦力。如果我们有一个智能体能够掌握这些多样化的模拟环境，它将能更好地泛化到现实世界。

我们希望通过这种方法将模拟中的学习直接转移到现实世界。这表明虚拟世界的训练和现实世界的应用是相互联系的，虚拟世界的技能可以帮助我们在现实中取得成就。

Transformer的替代品

Sonya Huang：在虚拟世界领域，那些优秀的模型大多基于 Transformer 架构。你认为我们是否已经准备好大规模应用 Transformer，还是说在模型方面仍然需要一些基础性的突破？

Jim Fan：我认为，我们还没有将 Transformer 架构的潜力发挥到极致。

尽管 Transformer 在很多方面表现出色，但目前的数据问题仍然是一个瓶颈。我们无法从互联网直接下载这些动作数据，因为它们通常不附带模型控制数据。

因此，我们必须在模拟环境或真实机器人上收集这些数据。一旦我们建立了成熟的数据管道，我们可以直接用 Transformer 处理数据，就像 Transformer 预测维基百科上的下一个词一样。

虽然我们正在测试这些假设，但 Transformer 的潜力尚未被完全挖掘。

此外，还有很多关于 Transformer 替代架构的研究。比如 Mamba 以及最近的时间训练等替代方案，这些都是很有前景的想法。

虽然这些替代方案在目前的前沿模型性能上还未显著超越 Transformer，但我对它们充满期待，并希望看到它们在未来的发展。

Stephanie Zhan：有哪个模型特别引起了你的注意，为什么？

Jim Fan：我特别关注 Mamba 和测试时间训练。这些模型在推理过程中展现了更高的效率。

与 Transformer 处理所有的令牌不同，这些模型具备更高效的机制。我认为它们潜力很大。

然而，我们还需要将它们扩展到前沿模型的规模，真正比较它们与 Transformer 的效果。这将帮助我们更好地理解它们在实际应用中的表现。雷峰网(公众号：雷峰网)