资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

增强学习对于机器人运动控制的六字真言 | 干货

作者:英特尔中国研究院 编辑:谷磊
2017/06/05 11:04

雷锋网按:本文来自英特尔中国研究院。

五月末的人机大战让世人大开眼界,顶级围棋手柯洁落下的眼泪、微博的叹息,都是对AlphaGo这颗强劲“大脑”的赞叹。然而,让人工智能走出娱乐和游戏,真正进入人类的实际生活,通过实现机器人的自主运动来为人类提供服务同样是我们长久以来的梦想

但是,机器人的自主运动该如何实现?随着深度学习部分解决了机器人的视听识别问题,增强学习技术有望成为突破机器人自主运动难题的一把利剑。

增强学习实际上是“试错法”这一在生活中广泛使用的技巧的理论抽象,即为了达到理想目标而不断试验,并在实际尝试中修正方案,从而逐步提高成功率。

比如在围棋程序中,盘面情况称为“状态”,落子选择称为“行为”;根据状态选择行为的方法就称为“策略”,根据当前状态和行为对输赢的预测就称为“价值”,而当前一步赢结果称为“回报”。增强学习就是修正策略从而实现价值最大化的过程。

在2017年《麻省理工科技评论》全球十大突破性技术榜单中,增强学习技术高居榜首,并已在棋类运动和电脑游戏领域获得突破性进展,如AlphaGo使用增强学习技术击败世界围棋冠军柯洁,基于增强学习的电脑程序在一系列Atari游戏中超过人类水平等。

那么,针对机器人的运动控制问题,增强学习技术的运用存在哪些难点?我们又可以采取哪些有效的解决方法?今天,我们为大家奉上六字真言:。 

三个难点

与棋类运动和电脑游戏不同,在机器人运动控制领域运用增强学习方法主要有以下三个难点:

增强学习对于机器人运动控制的六字真言 | 干货

机器人模型

三种解决方法

面对上述困难,我们难道就无计可施了吗?当然不是,科学家们提出了一整套解决问题的思路,主要有如下三点:

增强学习对于机器人运动控制的六字真言 | 干货

一个融合了“虚、先、近”三种策略的机器人运动控制增强学习框架

上述解决方法为增强学习在机器人动作控制领域的应用打开了大门,成为机器人研究的重要方向之一,但目前还存在许多实际难题亟待解决。科研人员正在对深度增强学习、学徒学习(模仿学习)和虚实结合学习方面进行一系列探索。

长按图片保存图片,分享给好友或朋友圈

增强学习对于机器人运动控制的六字真言 | 干货

扫码查看文章

正在生成分享图...

取消
相关文章