资讯 人工智能学术

和谷歌一同探索基于强化学习的长距离机器人导航

作者:杨晓凡
2019/03/12 19:05

雷锋网 AI 科技评论按:可以智能自主导航的机器人其实可以为人类提供很多便利、很多帮助。仅仅在美国就有三百万人由于残疾而不便移动,甚至无法踏出自己的家门一步。能进行自主长距离导航、行动的服务机器人可以大大提升他们的独立生活能力,可以帮他们运送生活物品、药品、行李等等。目前的研究表明,强化学习这种方法很适合把原始的传感器输入映射为机器人的动作,比如学习抓取物体、比如整个机器人的运动控制。然而强化学习智能体通常不具备较大空间的理解能力,但这却是运动中无需人类帮助、安全穿梭长距离、轻松适应新的空间所必须的。

和谷歌一同探索基于强化学习的长距离机器人导航

谷歌的机器人和 AI 研究人员们近期就研究了这个问题,提出了把深度强化学习和长距离运动规划相结合的机器人自主控制算法,而且它还具有很强的自适应能力。在下面三篇论文中,谷歌 AI 的研究人员们逐步把深度强化学习和长距离运动规划结合起来,探索了更容易适应新环境的机器人自动控制方案。

首先,他们训练的本地规划智能体可以执行基本的导航动作,安全地穿越较短的地形,不和其它的运动物体发生碰撞。这些局部规划器可以接受来自有噪声的传感器的输入,比如一维激光雷达的深度数据可以提供到障碍物的距离,规划器可以由此算出机器人控制所需的线速度和角速度。谷歌 AI 的研究人员们在模拟环境中用自动强化学习 AutoRL 训练局部规划器,AutoRL 的作用是可以自动搜索强化学习反馈以及神经网络架构。尽管局部规划器的训练距离只有 10~15 米,它们也可以很好地迁移到真实的机器人以及从未见过的环境中。

这样,这些局部规划器就可以作为大尺度空间中导航的基础部件。研究人员们随后构建了一个路线图,在这个图(graph)中,不同的节点是不同的位置,接着,在模仿真实机器人的有噪声的传感器和控制条件下训练出的局部规划器如果能够在某两个节点之间可靠地往来导航,这两个节点就会用边连接起来。

雷锋网 AI 科技评论把这三篇论文的内容简单介绍如下

Learning Navigation Behaviors End-to-End with AutoRL

PRM-RL: Long-Range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning

Long-Range Indoor Navigation with PRM-RL

更具体的介绍可以参见谷歌技术博客 ai.googleblog.com,雷锋网(公众号:雷锋网) AI 科技评论编译

文章点评
相关文章