雷锋网按:这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。
原标题 DeepMind's AI Masters Even More Atari Games | Two Minute Papers
翻译 | 熊逸凡 字幕 | 凡江
论文标题:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures
▷每周一篇2分钟论文视频解读
众所周知,强化学习是一种算法,我们可以用它在环境中选择一系列的行动来达到最高分数。这种算法有很多种应用,在这里我们单独拿电子游戏出来做例子,是因为它能够呈现给玩家多种多样的挑战。DeepMind 实验室为了更加直观地进行研究,使用第一视角来玩3D游戏。DeepMind实验室有一个简单却很灵活的API,可以让训练对象学习不同的任务,该实验室的游戏引擎功能强大,运行速度飞快,适用各种研究场景。
在强化学习过程中,我们通常有一个任务目标(比如学习后空翻)和一个我们想要训练好的对象。在本篇论文中,我将介绍的这个项目,是DeepMind对于改进强化学习的一次尝试。通过训练,使一个对象能完成比以往多得多种类的任务,这显然意味着我们需要获得更多的训练数据,以及为最高效地处理这些数据作好准备。
这个新技术是基于之前DeepMind发布了的构架,先前的构架 A3C(即异步的优势行动者评论家算法) 将一些执行单元置于游戏中,每个单元都掌握玩这个游戏当前的策略。之后,这些单元独立地进行游戏,并周期性地停止游戏,以此来分享关于当前策略的可行部分和不可行的部分。
这种IMPALA架构(Importance Weighted Actor-Learner Architecture)有两个关键性的改变——
(1)第一个是在中间有个学习单元,执行单元不与它分享游戏中哪些做法可行,哪些不可行,而是它们与它分享经验。之后,这个集中的学习单元会想出一个关于所有这些数据的合理结论。想象一下,如果一个队伍里的每个足球运动员都去告诉教练,自己在球场上尝试的哪些方法奏效,这样的确可以有作用,但是有别于只是得到这些方法,我们可以把每个队员各自的经验通过蜂群思想结合起来,然后可以得到更多更高质量的信息。
(2)另一个关键性不同是,传统强化学习会先将游戏进行一定步骤,然后停下来进行学习过程。而使用论文中的方法,我们将游戏进行和学习过程分离开来,因此就有可能发展出一种能够同时连续进行两个过程的算法。这也引发了新的问题,推荐看一下论文里特别是关于叫做V-Trace的新的off-policy校正方法的部分,当在30个不同等级和大量Atari游戏的测试中,这种新方法比起之前基于A3C架构的表现翻了一倍,这也是极好的。同时,数据使用效率也至少是十倍于后者。它产生的知识更容易被应用到其他任务中。
论文原址 https://arxiv.org/pdf/1802.01561.pdf
更多文章,关注雷锋网 雷锋网雷锋网
添加雷锋字幕组微信号(leiphonefansub)为好友
备注「我要加入」,To be an AI Volunteer !
相关文章:
2分钟论文 | 玩腻了iPhoneX,不如试试这款基于AI的Animoji