想让机器人更快更好的掌握抓取技术？给它们找个喜欢不停捣乱的陪练吧

机械臂抓取动作捣乱博弈论

2017/06/08 16:35

想让机器人更快更好的掌握抓取技术？给它们找个喜欢不停捣乱的陪练吧

雷锋网按，为了提升机器人完成操作任务（如抓取）的能力，卡耐基梅隆大学（CMU）和谷歌的研究人员让机器人通过对抗训练来不断进步。在训练中，“敌方”机器人会试图阻碍另一台机器人抓取物品（就像功夫熊猫中阿宝和师傅用筷子抢包子）。当然，研究人员还准备了更高难度的训练项目，他们有时会让同一个机器人的两只机械臂直接玩“左右互搏”，让一只机械臂阻止另一只抓取物品。

你知道在机器人研究中什么最无聊和乏味吗？当然是训练它们抓取不同的物品。现在有了 AI，研究人员再也不用看着这些“傻孩子”学习了，在自监督学习模式下，机器人会通过不同的方式不断尝试抓取物品。不过，这一过程可能要花费数千小时，而且即使机器人大致掌握了抓取的技巧，它也很难理解什么才是最棒的抓取方式。

这种训练方式的问题在于，大多数时间这些技术都在利用最基本的传感器来看待抓取的动作，这样的视角过于二元化，它们只在乎机器人是否拿起了目标物体，只要拿起来就算成功。不过，在现实世界中抓取是否成功可不是这个标准，因为不稳定的抓取会让物体坠落的可能性增大。此外，如果让机器人抓起一个盛了汤的碗，现有的粗暴抓取法肯定不可取，毕竟现实世界不是实验室。

出于这一考虑，CMU 和谷歌的研究人员决定将博弈论和深度学习用在机器人的训练中，而他们用到的方法就是开头提到的“捣乱法”，一台机器人会想方设法让对手无法抓起目标物体。

上周，该项目参与者 Lerrel Pinto、James Davidson 和 Abhinav Gupta 在 ICRA 展示了他们的研究成果，研究人员将这种对抗的方法描述为“双人零和重复博弈法”（零和博弈来自著名的博弈论）。在互相“拆台”的战斗中，双方都用到了卷积神经网络，一方会专注于抓取物品，另一方则要阻止对方抓取物品。

在训练中，一心要抓取物品的机器人不但要躲过对方不断袭来的“黑手”，还要处理重力、惯性和摩擦力等因素带来的影响。如果想进一步提升机器人的抓取能力，还可设定抓到物品机械臂就会摇晃几下的坏招（希望抓娃娃机老板不要学会这一招）。这样一来，加上另一只不停捣乱想要抢夺物品的机械臂，机器人的抓取能力就能提升到新的境界。

如果捣乱的机械臂成功打掉或抢走负责抓取机械臂手中的物品，那么这次抓取任务就算失败，在训练过程中抓取程序会不断从失败中吸取教训。与此同时，负责捣乱的程序则会从成功中找到新的法门，两者会在“嬉戏打闹”中共同进步。这也是该项目具有重大现实意义的原因，机器人要想走出实验室，必须保证能在挑战不断的环境中不犯错。

想让机器人更快更好的掌握抓取技术？给它们找个喜欢不停捣乱的陪练吧 一台机器人试图从对手那里夺下抓取的物品

研究人员表示，他们的对抗策略确实能加快机器人的训练进程，这种方法培养的系统更加强大。经过测试，三次迭代后，其抓取成功率从 43% 升到了 58%，而没有采用对抗策略训练的机器人，抓取成功率仅为 47%。

该结果可以清楚的表明，有个给机器人“拆台”的伙伴监督和陪练，作用可比傻乎乎的搜集抓取数据大多了。雷锋网注意到，研究人员公布的测试数据显示，6 千次的陪练后，机器人的抓取成功率比机器人自己单练 1.6 万次都要高。因此，对抗策略在机器人训练中明显更有优势。

经过一段时间的训练后，有陪练的机器人抓取成功率提升到了 82%，而没有这个待遇的机器人成功率仅为 68%。更令人惊讶的是，即使降低抓取机器人的力量和抓手的摩擦力，其成功率依然有 65%，而采用单练策略的机器人则下滑至 47%。

在这一过程中，研究人员也使尽了自己“一肚子坏水”，他们专门观摩了单练机器人容易失误的地方，并将这些破绽编入了捣乱机器人的程序中。同时，在训练中捣乱机器人不断的抢夺也是物品掉落的重要因素。当然，只有经历了这样的魔鬼训练，抓取机器人才能练出一身技艺。

Via. Spectrum.ieee 雷锋网编译