资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

DOTA 5v5 AI 的亮点不是如何「学」的,而是如何「教」的

作者:杨晓凡
2018/08/07 14:53

DOTA 5v5 AI 的亮点不是如何「学」的,而是如何「教」的

雷锋网 AI 科技评论按:我们都已经知道了,OpenAI 的 5v5 DOTA AI 「OpenAI Five」再次完胜人类。

美国时间 8 月 5 日星期天下午,OpenAI 组织的线下比赛(OpenAI 称其为「OpenAI Five Benchmark」)中一共进行了四局比赛。第一局 5 名现场观众组成的路人队伍被 7 分钟破中路二塔,9 分钟上路上高地,12 分钟破两路,人头比 26:4,可以说是完全碾压。

之后的三局比赛是重头戏,「OpenAI Five」对阵 4 位前职业选手(Blitz、Cap、Fogged、Merlini)与 1 位现任职业选手(MoonMeander)组成的高手队伍。第一局依然惨败,21 分钟破第二路高地,人类选手打出 GG,人头比 39:8。第二局人类选手选择了更强的控制、更积极的打法,却也只坚持到了 24 分钟,人头比 41:12。这样,三局两胜的比赛就已经告负了。

DOTA 5v5 AI 的亮点不是如何「学」的,而是如何「教」的

第二局人类高手比赛结束后,OpenAI CTO Greg Brockman 上前依次拥抱 5 位(前)职业选手致意

胜负已分,第三局就成为了娱乐局,现场观众给「OpenAI Five」选择了 5 个不怎么厉害的英雄,最后果然让人类玩家获得了胜利。

不过除了比赛比分之外,广大强化学习研究人员和人工智能爱好者还有一个深深的疑问就是,这样的 AI 是如何训练出来的。

毋庸置疑,DOTA 游戏的复杂程度比围棋要高,反馈也相当稀疏,即便选用了 OpenAI 已经开发得非常成熟的大规模分布式 PPO 实现「Rapid」,我们也难以直觉上信服「只要有足够的训练时间就能学到如此丰富的游戏行为」。比如首先「OpenAI Five」的团队协作上表现出了人类一样的明确的核心和辅助英雄的区分,比如据 OpenAI 的研究人员介绍「OpenAI Five」也会选择打肉山,只说这两件事就都是人类玩家需要经过有意识的策略判断和执行才能做出的。强化学习算法现在就有这么高层次的思维了?不太可能吧。

下面这些 5 日的比赛中的瞬间也值得玩味:

DOTA 5v5 AI 的亮点不是如何「学」的,而是如何「教」的

比赛进行到 20 分钟,AI 的巫妖去看肉山。实际上整场比赛中 AI 的英雄时不时就会去看看肉山

DOTA 5v5 AI 的亮点不是如何「学」的,而是如何「教」的

Blitz 的影魔被 AI Gank,用暗影护符原地隐身,AI 的直升机和冰女两个有 AOE 的英雄在附近还有一个 AI 队友的情况下直接就撤退了。现场解说评价「简直是人类对隐身物品的滥用」

DOTA 5v5 AI 的亮点不是如何「学」的,而是如何「教」的

还是天辉方的 Blitz 的影魔,绕树林被 AI 方的眼看到。值得注意的是,这时候天辉方下路 2 塔都已经丢了,而这个夜魇方的眼就插在夜魇下路一塔外不远的地方。这个眼位可算是非常保守、非常奇怪

DOTA 5v5 AI 的亮点不是如何「学」的,而是如何「教」的

AI 的火枪手很喜欢见面就给大,Blitz 的满血影魔露头就被大 —— 这个策略其实非常有效,团战中人类方的冰女经常在团战开始前先被火枪大到半血,然后团战一开始就马上阵亡

DOTA 5v5 AI 的亮点不是如何「学」的,而是如何「教」的

22 分钟 AI 方的冰女补出了点金手,不过在接下来的 3 分钟内都没有使用它

强化学习的范式决定了「能帮助带来高反馈的行为」会更容易被学到,而 DOTA 的复杂就在于,许多行为和最终游戏结果之间的关联似乎也是若即若离,在大多数场合下都能起到一锤定音效果的行为也许人类自己都说不清。即便相信 AlphaGo 能在反复的自我对局中找到更好的策略的人,也不一定相信在 DOTA 如此复杂的环境下仅靠自我对局就可以学到定位、分路、补兵、先手、看肉山、插眼等等系列行为。

结合 OpenAI 之前放出的一些资料和「OpenAI Five」开发团队在比赛现场的访谈,雷锋网 AI 科技评论找到了「计算集群上相当于180 年游戏时间每天的训练」之外的,能帮助我们理解更具体的 AI 实现过程一些端倪。相比于说这些是「强化学习研究的小技巧」,我们更觉得这是「人类教学的小技巧」;相比于「OpenAI Five」训练中模型自己的探索行为,我们觉得意义更重大的是人类成功地把自己的知识和经验设法教给了「OpenAI Five」

现在知道了这些 OpenAI 的「教学」方法之后,再回过头去看看前面提到的「OpenAI Five」的游戏表现,是否显得合理多了、亲切多了呢?

可以说「OpenAI Five」的开发团队想了许多办法鼓励 AI 用像人类一样的策略和操作玩 DOTA,但并不对表现的上限做出明确的限制。在人类玩家探索了这个游戏这么久之后,借助人类的经验快速避开低效的游戏空间当然是一个好主意。从这个角度讲,OpenAI 现阶段的「OpenAI Five」就仿佛是早期的 AlphaGo,以从人类的过往游戏中学习为基础,然后尝试提升和创新。

那么这套系统继续优化之后在 DOTA2 国际邀请赛(TI)上面对现役职业选手还能有如何的表现,比现在明显进化明显全面的(也许是 Master 版)「OpenAI Five」甚至去掉一切约束完全自己探索的「OpenAI Five」Zero 版未来是否还有可能呢?我们拭目以待。

雷锋网 AI 科技评论报道。

长按图片保存图片,分享给好友或朋友圈

DOTA 5v5 AI 的亮点不是如何「学」的,而是如何「教」的

扫码查看文章

正在生成分享图...

取消
相关文章