伯克利罗剑岚：机器人的范式革命，藏在真实世界中

强化学习具身智能伯克利

作者：赖文昕

2024/11/12 16:23

作者 | 赖文昕

编辑 | 陈彩娴

近日，伯克利大学 Sergey Levine 团队发布了一项强化学习方向的重磅工作——HIL-SERL，引起了具身智能领域的广泛讨论与关注。

根据实验结果，基于强化学习框架 HIL-SERL，研究者可以直接在现实世界中训练基于视觉的通用机器人操作策略。其中，机器人经过 1~2.5 小时的训练后，就能完成主板、仪表盘以及正时皮带组装等操作任务。

而且，机器人完成所有任务的成功率均高达 100%！

这些任务包括组装家具、颠勺煎蛋、鞭打积木、插入 U 盘等操作，即使在人为干扰的情况下，机器人也依旧能够稳定、灵活地完成任务。

此前，强化学习（RL）总是被业内人士诟病其只能在模拟环境中改进算法性能，无法解决现实世界里真实机器人的问题。但 SERL 系列的工作证明，真机 RL 不是天方夜谭——如今，强化学习不仅能应用在现实世界中，且在精准灵巧的操作任务上效果极佳，且远超模仿学习方法，节拍数也平均快了 1.8 倍。

换言之，SERL 是真机 RL 机器人领域的一个划时代工作。而这个工作的核心作者，就是中国青年科学家、伯克利在读博士后罗剑岚。

伯克利罗剑岚：机器人的范式革命，藏在真实世界中

罗剑岚

今年年初，罗剑岚团队提出了高效机器人强化学习套件 SERL，机器人能用 20 分钟学会装配电路板，成功率同样是 100%。

HIL-SERL 是基于 SERL 的升级版。但不同的是，HIL-SERL 结合了人类的示范和纠正来训练强化学习策略，而 SERL 仅依赖于人类的示范。

加入人类纠正这一微小的差异，对于让策略从错误中学习并提高性能至关重要，特别是针对那些对智能体来说得从头开始学习的任务。而且，HIL-SERL 专注于相对困难的任务，还解决双臂协调或动态操作的问题。

伯克利罗剑岚：机器人的范式革命，藏在真实世界中

项目链接：https://hil-serl.github.io/

HIL-SERL 的效果也出乎了罗剑岚与导师 Sergey Levine 的预料，看到成果后，Sergey 对罗剑岚说的第一句话就是：“You really made RL work.”（你真的让强化学习跑起来了。）

在不久前 AI 科技评论发布的《伯克利具身智能图谱》一文中，我们简单介绍了罗剑岚在伯克利研究强化学习与机器人结合的故事。回溯过去，罗剑岚已在机器人真机 RL 方向“固执”了将近十年时间。

2015 年，罗剑岚到伯克利机械工程系读机器人控制博士，同时开始探索 Robotics+AI，并在 Pieter Abbeel 的指导下攻读计算机系硕士。在他的博士论文答辩中，Pieter 也是他的博士答辩委员会 co-chair。

在强化学习里，仿真器是不可缺失的一环，在模拟环境中实验测试结果的分数越高，算法效果自然就更好。但同时，如何将强化学习落地到现实世界中也是机器人领域一直悬而未决的问题。毕竟，MuJoCo 的物理模拟再精确，也并非真实的物理世界。

于是，从博二的第一个强化学习工作开始，罗剑岚就一直在研究如何让强化学习在真实世界中落地。这当中，强化学习的研究从 AlphaGo 的如日中天到变得渐渐冷门、甚至被行业唱衰，但罗剑岚一直坚信，机器人的真机 RL 是一个长期命题，一旦克服、将对机器人学习的突破产生范式般的变革。

2020 年博士毕业后，罗剑岚加入了谷歌，先后在 DeepMind、Everyday Robot 与 Google X 等部门工作，由此学习了更多从底层动力学到上层控制的机器人系统知识。与此同时，他也一直坚持探索机器人与强化学习的结合。

2022 年，当所参与项目被孵化为工业机器人创企 Intrinsic 后，罗剑岚重新回到了伯克利，在 Sergey Levine 团队当博士后，是 Sergey 组最坚定的 RL 研究者。SERL 系列工作的探索，也是罗剑岚在伯克利探索真机 RL 多年来取得的最具突破性成果。

以下是 AI 科技评论与罗剑岚的对话。

重返学术

AI 科技评论：您在伯克利机械系读博，那最早是如何接触深度强化学习的呢？

罗剑岚：机械系做的范围大而全，我是控制方向的，最早控制论和强化学习就是对偶的存在，比如控制里的 HJB 方程，强化学习里的 Bellman Backup，都是原理相同的动态规划方法。所以这个切换反倒能给我不同的视角看两个领域怎么解决问题。

2017 年暑假，我参与了西门子伯克利分部的工作，把深度强化学习应用到工业生产中，学习策略以解决传统机器人解决不了的问题，比如高精度装配。

当时的任务是操作一个 3D 打印的齿轮，将其安装到一个可活动的机械装置上，要求设计的算法不仅要能进行规划，还要能实时响应外部变化，并制定策略成功完成装配。这个项目是我在强化学习领域的起点，也是和 Pieter Abbeel、Sergey Levine 合作的开始。

AI 科技评论：博士毕业后您在谷歌工作了两年，为什么会决定重返学术，到 Sergey Levine 的组里读博士后呢？

罗剑岚：其实这是比较偶然的决定。

在谷歌期间，Stefan Schaal 让我积累了很多硬核机器人知识，真正地从底层动力学到上层控制摸清楚整个机器人系统。当时我参与的项目注重于把 AI 用在工业生产上，提高生产力。在项目孵化为做工业机器人的 Intrinsic 后，我想着回国找教职，打算先做一年 part time 的博士后作为过渡，就问了当时也在谷歌兼职的 Sergey。

Sergey 当时训练机器人完成简单操作需要几十个小时，通过我们的合作，我的工作里插拔等工业上较精密任务的成功率有 100%，并且只用了很短的时间，意识到团队得有人既懂机器人系统又懂 learning 才好将二者结合，很热情地建议我到他的组里全职做两年博士后。因为我俩的能力比较互补，之前的合作又非常愉快，我便同意了。

AI 科技评论：回到伯克利后，您参与了 Open X-Embodiment 数据集的创建。

罗剑岚：没错，最早在 2023 年 3 月，Open X-Embodiment 还是个团队成员不足 10 人的小型探索项目，主要是伯克利、斯坦福与谷歌一起合作。我在里面负责最主要的线缆任务 Cable Routing，发现比较可行后，就决定扩大规模。因为之前的机器人数据集都很分散，我们想把行业内的学术、产业力量都拉进来，就给所有数据集作者发邮件，最后的合作者达到了 200 多人。

AI 科技评论：在最新的 HIL-SERL 之前，您先是在 2 月发布了 SERL，可以聊聊这个 idea 是怎么诞生的吗？

罗剑岚：要让强化学习真正好用，就必须确保所有环节和选择都正确无误且放在合适的位置，因此尽管 AI 社区都想用强化学习来解决实际任务，但它门槛高，流程易出错且不稳定，一直难以攻克，很多人都已放弃用强化学习在真实世界里训练策略。

所以在 2023 年初，我就萌生了一个想法，为社区提供一个开源的、端到端的解决方案，里面包括强化学习环境和机器人控制器，能让大家下载下来后直接使用，就像现在拿仿真器训练机器狗走路一样简单。

之前我在谷歌的工作，其实也涉及强化学习在真实世界的应用，比如在 2022 年我与 Sergey 的合作以及我在 DeepMind 参与的项目。在过往研究的铺垫下，我在 2023 年 6 月开始带领团队做 SERL，与斯坦福、华盛顿大学、谷歌等几家机构一起合作推进，进一步完善了以前的工作。

SERL 第一次实现能通过真实世界的视觉信息，用 20 分钟完成精密装配，学好一个策略。在 PCB 板组装、电缆布线和物体重定位这些复杂任务中，每个策略平均训练 25 到 50 分钟，任务的成功率接近完美，而且即使在受到干扰时也能表现出极好的鲁棒性，并展现出紧急恢复和校正行为。

整个研究的推进过程是一次真正的科学探索，我们实验时发现了其中有一两个非常关键的选择，能让整个系统运行地极好，当时我们也傻眼了。今年年初 SERL 发布后，海内外很多机构也开始使用它，比如北大、波士顿动力AI研究院、谷歌等等。

伯克利罗剑岚：机器人的范式革命，藏在真实世界中

论文链接：https://arxiv.org/pdf/2401.16013

现实世界的拥护者

AI 科技评论：听起来您是现实世界和真实数据的坚定拥护者？

罗剑岚：没错，回到 2017 年第一次接触强化学习时，大家的研究都在仿真里，在 MuJoCo 模拟环境中进行强化学习实验、刷榜、发论文还是常规操作，但我觉得那些强化学习的算法性能榜单并没有解决实际问题，与现实世界的机器人控制问题其实是脱节的。实际上，强化学习的采样效率一直是个问题，至今没有很多人用在真实机器人上。

当然，仿真对移动（locomotion）很有效，但这不是魔法，仿真是人根据物理模型写的，其实是在做基于模型的控制，只不过仿真给了更好的计算工具。

而移动是一个相对简单的问题，模型也比较简单，四足狗是桌子模型，双足是倒立摆。挑战在于模型不准确狗摔倒，或者外界扰动稍大走路打滑，但这些不确定比较有限。这些问题用传统的 MPC（基于模型的控制）和鲁棒控制也能解决得很好，比如对不确定性有一个定量估计，那么我们可以设计出对这个 bounded uncertainty 鲁棒的控制器。

今天的波音客机就是根据此原则来设计控制器的，它能对油量的变化造成的飞机重量变化，高空中气流的变化等等都保持有效，这也是民航客机能够安全运行，我们放心坐上去的保证，所以基于模型的控制是十分有效的，只不过入门门槛及对工程能力的要求太高，刚入门的研究人员一般不太愿意在这上面深耕。

而在操作中，本体的模型是确定的，你让机械臂往左走它一定会往左走，真正的难点在于外部环境无穷无尽的变化和难以计算的复杂物理，比如物理接触和柔性物体，需要处理的复杂度几乎是无限的。

因此，在真实环境中进行训练是必要的。虽然现在有些成功的深度学习仿真系统，但如果你构建了一个仿真器，从中学习出的策略是不可能超越仿真器本身能力的。最终，你的仿真器会限制你的策略学习。我们不能因为使用仿真器解决了一个相对简单的问题就认为它一定会解决另一个难得多的问题，从而不去解决这个困难问题的本质，反而被困在“鞍点”里，去绕路构造这个困难问题的近似（proxy）来尝试去解决它。这样长远来看，会失去找到全局最优解的能力。

在仿真环境与现实世界做操作存在显著差异，尤其是在涉及视觉输入的情况下。因此我的研究重点一直放在如何设计出具有高样本效率的算法上，而且要与硬件和控制器对接无误。例如，在有视觉信息的情况下，能够在 20 分钟内在现实世界中学会一个非常复杂的策略，而其他方法无法解决。

Sergey 也是真实世界数据的坚定支持者，有次我俩徒步时聊天，说起如果有 100 亿美元，是去建世界上最大最好的仿真器，还是去收世界最大的数据集？我们的答案很一致，就是数据集。

AI 科技评论：看来您很早就开始研究强化学习在现实世界中的应用了。

罗剑岚：是的，我对真实的机器人比较感兴趣，在和西门子合作的项目里解决问题时就有试着把强化学习用在现实世界，但当时强化学习搞不定。它行不通，我就想把它弄明白，所以从 2017 年开始，我就一直沿着这个主线研究，花了很长时间，但我好像也没发现谁比我更快做出来，因为很多人试了一两次不 work 就放弃了。

之前很多人认为在现实世界中应用强化学习并不是一个好方法，因为机器人需要算法与硬件和控制器方面进行极佳的对接，才能使整个系统运行良好。在HIL-SERL中，我们的系统能在1-2小时内利用视觉输入，在一系列工业生产、动态操控和灵巧操作的任务上取得100%的成功率。

大家现在使用仿真的一个主要观点是机器人真实数据很难获得，仿真可以瞬间生成 100 亿数据，但没有人会反对如果有真实数据，最有用的还是真实数据。但这不是问题的本质，十年后我们有一亿个机器人部署在真实世界中，不断分享着真实物理数据（physical experience），那时我们再来看现在的困局，很多问题将不存在，很多观点将变得无关紧要。

现有的数据量、部署的机器人，都不足以让我们产生确切的科学结论，所以才会百家争鸣。远的不说，谁先第一个部署 1000 台人形机器人到工厂里，这些 24x7 传回来的数据就足以让我们产生新的范式和科学结论，我们先从这些半封闭空间的问题入手，一旦对问题有了更深的了解，得出的方法论才会更进一步延伸到无约束空间的问题。

作为科学家，我们应该关注更远的未来，比如五年或十年后的技术发展，需要解决一些基础的科学问题，探讨现在无法实现但未来可能产生重大影响的事情。

强化学习之于具身智能

AI 科技评论：大模型的诞生好像让强化学习的热潮在 Robot Learning 领域冷却了不少。

罗剑岚：如果说 2016-2021 年的主线是以伯克利为首的强化学习，那么 2021 年随着大模型兴起，收集数据和大模型的结合变成了新潮流，比如说谷歌的 RTX 系列。现在的趋势是大模型继续火热，强化学习强势复苏，二者结合，大模型实现初步 50-60% 的策略，再用强化学习算法逐步提升至 100%。

虽然我也做大模型，但我认为自己的代表作和研究重点还是强化学习，因为 HIL-SERL 目前实现的成功率是 100%，周期时长也更短。

如果局限于大模型，其实无论如何收集数据，人与机器人的观察仍会存在差异。人类拥有记忆、大脑和思维，而机器人模仿人类行为时难免会有缺陷。理论上，机器人的行为无法实现对人类 100% 的完美复制。那么如何接近呢？这就需要强化学习，比如让机器人像人类学习骑自行车一样，通过尝试和犯错来学习，看电视或父母教导固然有用，但要真正掌握技能，必须亲自尝试和经历失败。

我预测，现在这些大规模使用模仿学习的创业公司，在他们试过之后，知道痛点在哪之后，明年开始就会用强化学习去优化成功率，节拍数，和一定的鲁棒性。

AI 科技评论：那您是如何看待强化学习在机器人学习或具身智能里发挥的作用呢？

罗剑岚：在机器人学习中，机器人也必须与环境互动，从环境中得到反馈，然后根据这些反馈调整策略，以达到更高的成功率——这是一个根本的逻辑问题。与大模型不同，物理世界的机器人学习是一个复杂的系统，涉及多维、高维度的数据，难以简单实现，但一旦成功，就能超越人类，成为超级系统。

例如，人类需要 10 秒钟完成的任务，机器人通过多步推理，可能只需 5 秒钟就能完成。这是一个非常强大的工具，我们仍在探索如何有效使用它。但可以肯定的是，它将是具身智能不可或缺的一部分。有趣的是，在和机器人领域的专家交流时发现，他们会更关注基础模型完成现实操作任务的成功率，50-60% 会使他们失去兴趣，但得知我们能实现 100% 便会很好奇我们的成果。

Rich Sutton 的 bitter lesson 说历史告诉我们 learning 和 search 是两种可以无限 scale 的方法。模仿学习可以告诉我们怎么从数据中找到特征，但是没有 search 或 optimization（RL），它超越不了数据的局限，从而以新的方式解决新的问题。

中国优势：高质量、低价格

AI 科技评论：您怎么看待现在具身智能越来越火热的趋势呢？中国的优势在哪里？

罗剑岚：以前的确没想到具身智能会火，我们自己还开玩笑说 robot learning 是个自嗨的小圈子，这么多年来我第一次觉得自己属于主流了。

我非常认可国内的供应链优势。其实有很多机器人的卡点是在硬件上，当硬件做好了，软件就可以轻松很多，得硬件和软件一起迭代，而不是在较差的硬件上开发算法。

当我们提到“性价比”一词时，总会下意识觉得这意味着“平替”的质量差了不少，但现在，中国在全球产业链、供应链中的作用并非仅仅是降低成本。例如，波士顿动力的机器狗产品定价在 5 万美元，之前没有人打破，但宇树成功了，而且不是以低质量的方式成功的。

中国作为拥有完整产业链的工业国家，正在重新定义产品价值和定价体系，目标不是制造廉价产品，而是通过全产业链的优势，重新教育和定义市场，确立自己的定价权。

AI 科技评论：可以分享一下您接下来的计划吗？

罗剑岚：其实我出国的时候就想回国，从来没想过长期待在海外。在学校里从事由 0 到 1 的开创性科研，就算需要长时间坐冷板凳，但从长远来看，这价值是巨大的。人生苦短，只有几次机会能够实现重大突破，如果错过了，那至少也努力过了。

我认为突破性的原创研究如果能真的转化为实际应用，会创造更大的社会价值，伯克利和斯坦福的成功离不开硅谷周遭的创业生态。机器人是一个与产业紧密结合的实用科学，能将科研成果从 1 扩展到 100，实现产业化。在这方面我最佩服的人是李泽湘老师，他共同创立的大疆不仅是一家价值数百亿美元的公司，更重要的是在09-10那个时间点证明了源自中国的硬科技创新是可以成功的，这彻底改变了中国科技的历史，这个意义远大于它的经济价值。

Khosla venture 的创始人 Vinod Khosla 说过一句话，创新从来不发生在一个系统的核心部分，它永远发生在系统的边缘（“Innovation never happens at the core of a system, it always happens at the edge"）。系统的核心部分有它的既得利益，没有足够的动力去颠覆自己的利益来创新，而在系统边缘，一个好的想法被尝试，然后经历失败再不断的尝试，不确定性会变低，成功的概率就会变大，如果它足够重要，就会产生颠覆性的创新。

就好像没有一次的科技革命是被一个几万亿市值的大公司引领的，也很少有重大的科学发现是科学家快退休时做出来的。汪滔创业时挤在深圳十几平米的小平房里，用今天的话来说就是没有资源，所以大疆的成功会激励中国的年轻人去创造下 100 个、1000 个大疆。

接下来我会关注通用高性能机器人，尤其是在工业生产领域。尽管目前车厂的自动化水平很高，但实际上还有很多工作需要人工完成，因为今天的机器人还无法灵活地处理多变的任务。强化学习等技术将很快应用到这些领域，改变现有的生产模式。例如，特斯拉和富士康等公司已经开始使用机械臂进行柔性生产，以适应不断变化的生产需求。这种生产模式的转变正在全球范围内发生，它不仅能够提高生产效率，还能解放人类的创造力。

我认为，全球制造业的产值巨大，但自动化的比例仍然很低。如果能够通过机器人技术提高自动化水平，不仅可以降低人力成本，还能释放人类的生产力，让人类有更多机会去探索和创新。这种变革已经在一些先进的工厂中得到体现，例如现代汽车在新加坡的新工厂，就采用了更灵活的生产单元模型，取代了传统的生产线，使得生产更加灵活和高效。

关于具身智能领域的更多精彩故事，欢迎添加雷峰网作者微信 anna042023 交流。雷峰网(公众号：雷峰网)

伯克利具身智能图谱：深度强化学习浪尖上的中国 90 后们