雷锋网按:这里是,AI研习社编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。
原标题:OpenAI + DOTA2- 180 Years of Learning Per Day
翻译 | 董丹丹 整理 | MY
一个闻者伤心听者落泪的旧闻:人工智能在有限规则的 1V1 比赛中击败了一些人类顶级玩家,当时的奖金池是 2000 万美金。这是 AI 史上一个巨大的里程碑。我们注意观看当时的顶级玩家的表情。
之后旁边的人员激动万分前来握手,我们的玩家脸上笑嘻嘻,心里···。心疼!人类玩家惨被 AI 虐杀,什么里程碑,人家只是个想要好好玩游戏的宝宝!你却对我使外挂?
我们都知道,DOTA 这类游戏需要长线策略规划,由于信息不完整,并且游戏拥有高维、持续的行为空间,这些特征对人工智能来说是无法逾越的噩梦。但是在 1V1 获胜后,下一个里程碑是在标准的 5V5 比赛中击败了人类团队。
人工智能始终在通过自我对抗训练进行学习,每天如此,80% 的游戏是自己与自己对抗,20% 是与过去的自己对抗。并且在 5V5 比赛中,这五个机器人之间虽然没有明确的沟通渠道,但是他们已经能预测未来行为和情形,并且能理解伏击对手等许多游戏中的重要元素。
可能会有人说这些算法之所以能够打败人类,是因为它们的点击速度更快,但事实上 DOTA2 对这个指标并不那么敏感,点击得越频繁并不意味着能获得更多的胜利。此外,这些机器人每分钟大概执行 150-170 个动作,这与一位中级水平的人类玩家是一致的。
哎,还能不能愉快玩耍了?
雷锋网雷锋网
视频原址:https://www.youtube.com/watch?v=yEOEqaEgu94