DeepMind提出增强想象智能体这次能帮你赢游戏 | 2分钟读论文

DeepMind

2017/09/27 16:59

雷锋网AI研习社【本期论文】

"Imagination-Augmented Agents for Deep Reinforcement Learning"

用于深度强化学习的增强想象智能体

DeepMind发布的最新论文中提出了，用于深度强化学习的增强想象智能体（Imagination-Augmented Agents）。这个智能体的有趣之处在于，它用到了想象力。不仅能够获取当前信息、想象行动结果，还能制定计划，选择一种可以够达到最大预期值的方法。

DeepMind提出增强想象智能体这次能帮你赢游戏 | 2分钟读论文

研究发现，在软件中植入想象智能体，就能让它们更快地学习，论文描述了通过想象计划（imaginative planning）提高深度强化学习的新方法。

学会想象的智能体在玩 Sokoban（推箱子）游戏时，解决了 85% 的问题，而基准智能体完成了 65%。增强想象智能体的完成率也超过了没有使用想象计划的标准智能体的增强版本。

DeepMind提出增强想象智能体这次能帮你赢游戏 | 2分钟读论文

当然，这个通用算法，可以用在很多不同的问题上。推箱子这种小游戏只是展示这个新技术优异性能的一种方式。

▷观看论文解读大概需要 3 分钟

其实在两年前，DeepMind团队就推出了一种算法，能够通过观看视频，就把Atari Breakout（打砖块）玩得很溜。这个算法推出的时候可以说是轰动一时，短短两年，那篇论文已经被一千多篇研究论文引用。

DeepMind提出增强想象智能体这次能帮你赢游戏 | 2分钟读论文

这个算法的原理和动物学习新事物的方法类似。它会观察环境，尝试不同的行动然后看它是否奏效。如果奏效，它就会继续下去；如果不行，它就会去尝试其他的东西。

算法背后是基于神经网络和强化学习的结合。神经网络系统用来理解视频，而强化学习则会实施一系列高效的动作，也就是玩游戏的那部分。强化学习非常适合那些处于复杂多变的环境中的任务。我们需要根据周围的环境选择合适的动作，以便尽可能的多得分。

但是，就早期的算法而言，只要玩游戏的时间一长，它的表现就会变差。（比如，你家小汪在第一次吃到狗粮时开心得抓狂，但是越到后面刺激越弱，它也就不会为狗粮激动了。）

其中有两个重要的原因，一个是因为这个游戏需要长远考虑，这对强化学习算法是一个很棘手的问题。第二个原因是，玩家会犯一些难以挽回的错误。比如，把箱子推到一个了死角，那他就过不了这一关了，除非我们有一个算法，它能试很多次然后看箱子是不是固定不动。（唔，要实现还是非常有难度的）

根据本期论文显示，DeepMind增强想象智能体能够有效解决以上问题。

想知道它具体怎么操作？学霸们还请自行阅读论文以获得更多细节。

雷锋网AI研习社出品系列短视频《 2 分钟论文》，带大家用碎片时间阅览前沿技术，了解 AI 领域的最新研究成果。欢迎关注雷锋网雷锋字幕组专栏，获得更多AI知识~感谢志愿者对本期内容作出贡献。

DeepMind提出增强想象智能体这次能帮你赢游戏 | 2分钟读论文

DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文