和谷歌一同探索基于强化学习的长距离机器人导航

2019/03/12 19:05

雷锋网 AI 科技评论按：可以智能自主导航的机器人其实可以为人类提供很多便利、很多帮助。仅仅在美国就有三百万人由于残疾而不便移动，甚至无法踏出自己的家门一步。能进行自主长距离导航、行动的服务机器人可以大大提升他们的独立生活能力，可以帮他们运送生活物品、药品、行李等等。目前的研究表明，强化学习这种方法很适合把原始的传感器输入映射为机器人的动作，比如学习抓取物体、比如整个机器人的运动控制。然而强化学习智能体通常不具备较大空间的理解能力，但这却是运动中无需人类帮助、安全穿梭长距离、轻松适应新的空间所必须的。

和谷歌一同探索基于强化学习的长距离机器人导航

谷歌的机器人和 AI 研究人员们近期就研究了这个问题，提出了把深度强化学习和长距离运动规划相结合的机器人自主控制算法，而且它还具有很强的自适应能力。在下面三篇论文中，谷歌 AI 的研究人员们逐步把深度强化学习和长距离运动规划结合起来，探索了更容易适应新环境的机器人自动控制方案。

首先，他们训练的本地规划智能体可以执行基本的导航动作，安全地穿越较短的地形，不和其它的运动物体发生碰撞。这些局部规划器可以接受来自有噪声的传感器的输入，比如一维激光雷达的深度数据可以提供到障碍物的距离，规划器可以由此算出机器人控制所需的线速度和角速度。谷歌 AI 的研究人员们在模拟环境中用自动强化学习 AutoRL 训练局部规划器，AutoRL 的作用是可以自动搜索强化学习反馈以及神经网络架构。尽管局部规划器的训练距离只有 10~15 米，它们也可以很好地迁移到真实的机器人以及从未见过的环境中。

这样，这些局部规划器就可以作为大尺度空间中导航的基础部件。研究人员们随后构建了一个路线图，在这个图（graph）中，不同的节点是不同的位置，接着，在模仿真实机器人的有噪声的传感器和控制条件下训练出的局部规划器如果能够在某两个节点之间可靠地往来导航，这两个节点就会用边连接起来。

雷锋网 AI 科技评论把这三篇论文的内容简单介绍如下

Learning Navigation Behaviors End-to-End with AutoRL

通过 AutoRL （自动强化学习）学习端到端的导航行为
论文地址：https://ieeexplore.ieee.org/document/8643443
内容简介：这篇论文中，研究人员们在小尺寸、静态的环境中训练局部规划智能体。在强化学习框架下，深度确定性策略梯度（DDPG）等标准的深度强化学习算法面对的是一个非常稀疏的反馈“是否到达了终点”，实际使用中会需要大量的迭代尝试、消耗许多手工调节反馈的人力；此外研究人员们还需要在没有多少先例可参考的情况下选择最佳的网络结构；最后，DDPG 之类的算法不仅学习过程不稳定，还会出现灾难性的遗忘症状。
所以研究人员们采用了 AutoRL，这是一种围绕深度强化学习设计的进化性自动化层，它借助大规模参数优化，自动搜索最佳的反馈和网络结构。并且最终 DDPG 不会再表现出灾难性遗忘的症状，最终学习到的策略也有更高的质量，对于传感器、运动器和定位噪声都更为鲁棒，对新环境的泛化能力也更好。不过，AutoRL 也有样本效率低的问题。
这样训练出的智能体只能执行局部导航任务，不过它们对障碍有较好的鲁棒性，尤其是，即便是在静态障碍的环境中训练的，它们也可以正确应对移动的障碍，还很好地迁移到真实的机器人上。下一步就是探索更长距离的导航。

PRM-RL: Long-Range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning

PRM-RL：通过组合强化学习和基于采样的规划，完成长距离机器人导航任务
论文地址：https://ai.google/research/pubs/pub46570
ICRA 2018 最佳论文
内容简介：基于采样的规划器一般用于长距离规划，它们的工作方式是逼近计算机器人的动作。比如，概率地图（probabilistic roadmaps，PRMs）方法中就对机器人的姿态采样，把这些采样用可行的变换连接起来，最终形成一个包括了机器人在大范围空间中运动的地图。在这篇论文中，研究人员们尝试把手工调节的基于强化学习的局部规划器（这里并没有使用 AutoRL）和 PRMs 结合起来，对机器人的训练目标是，在某个局部训练，但训练结束以后就可以适应多种不同的环境。

Long-Range Indoor Navigation with PRM-RL

基于 PRM-RL 的长距离室内导航
论文地址：https://arxiv.org/abs/1902.09458
内容简介：这篇论文在前一篇的 PRM-RL 基础上又做出了多项改进。首先，把手工调节的强化学习局部规划器替换为了 AutoRL 训练的，这提高了长距离导航的表现。其次，系统中现在加入了 SLAM 地图，机器人在导航过程中将进行同步的定位和地图重建，这可以作为运动概率地图重建的资源。由于 SLAM 地图是带有噪声的，这一变化也补上了模拟环境和真实环境中的机器人由于噪声程度不同带来的性能区别，实际上，虚拟环境中导航的成功率和真实机器人上的实验成功率几乎相同。最后，研究人员们还增加了分布式地图构建，这极大增加了机器人最大可以支持的地图大小，最多可以达到 70 万个节点。

更具体的介绍可以参见谷歌技术博客 ai.googleblog.com，雷锋网 AI 科技评论编译