进化策略让 AI 开挂，玩游戏不断给自己续命

进化策略雅达利游戏

2018/06/04 10:06

雷锋网按：这里是，雷锋字幕组编译的Two minutes paper专栏，每周带大家用碎片时间阅览前沿技术，了解AI领域的最新研究成果。

原标题 This Evolving AI Finds Bugs in Games - Two Minute Papers #250

翻译 | 孙启超整理 | 凡江

强化学习会通过在系统中选择一系列的行为，把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能，例如在 Q bert 游戏中，人工智能每走一步，都要计算出合适的操作来控制这个橙色的光标，并在不碰到紫色敌人的情况下，点亮所有的立方体。

针对部分具有挑战性的深度强化学习问题，比如雅达利游戏，已经有研究表明，进化策略（Evolution Strategies）是强化学习的可行替代方案。本期论文所提出的进化策略，目标不仅是训练一个代理而是并行训练所有代理，这种方法效率很高，就像大自然的进化那样，优胜劣汰，表现最好的代理产生新的后代。

Open AI 最近的研究结果表明，比起深度强化学习的各种通用手段，自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了，即便是年代久远的进化策略，最后的成绩也非常喜人。

进化策略让 AI 开挂，玩游戏不断给自己续命