你以为只是下围棋能赢人类？微软的 AI 在吃豆人游戏上也超越人类了

AI 微软吃豆人分治策略

作者：白及

2017/06/15 21:30

你以为只是下围棋能赢人类？微软的 AI 在吃豆人游戏上也超越人类了

雷锋网按：微软研究人员创建了一个人工智能的系统，这个系统能够在 20 世纪 80 年代风靡全球的电子游戏吃豆人小姐（Ms. Pac-Man）中获得最高分，系统使用了分治策略来更大程度地影响 AI 代理，从而完美地通关游戏。

今年年初，微软收购了一家人工智能初创公司 Maluuba，Maluuba 公司团队运用强化学习技术（机器学习的分支），在吃豆人小姐游戏 Atari 2600 版本中表现完美。使用这种方法，该团队在这个游戏中得到的分数高达 999,990。

位于加拿大蒙特利尔的麦吉尔大学（McGill University），从事计算机科学研究的 Doina Precup 副教授表示，AI 研究人员的常常使用各种电子游戏来测试他们研发的系统，但研究人员发现吃豆人小姐游戏是最难攻克的。

但是，Precup 表示，相比于研究人员所取得的成就而言，她对于研究人员获得成果的过程更加感兴趣。为了在吃豆人小姐游戏中获得更高的分数，Maluuba 公司团队将操控吃豆人小姐游戏的大问题分解成若干个小问题，然后将小问题分发给AI代理解决。

Precup 说“这个分治策略的想法让 Maluuba 公司的研究人员使用不同的系统来实现同一个目标，这是一件非常有趣的事情”，她还说到：“这个想法类似于一些大脑如何工作的理论，它可以更大程度地影响AI代理教学，从而利用有限的信息来完成更为复杂的任务。倘若能够完美利用分治策略，那人工智能将向前跨越一大步，这真的令人感到尤为兴奋。”

Maluuba 团队将这种分治策略称之为混合式奖赏架构（Hybrid Reward Architecture），这个方法使用了 150 多名人工智能代理，每个代理与其他代理相互独立地精通吃豆人小姐游戏。比如，一些代理成功找到一个豆子将获得的奖励，而另外一些代理由于幽灵的存在必须呆在原处。

然后，研究人员在吃豆人小姐游戏中创建了一个顶级代理，就像一家公司的高级经理一样，顶级代理能够获得所有代理的建议，综合分析后由顶级代理来决定吃豆人小姐该如何移动。

顶级代理会根据选择各个方向前进的代理数量的大小来决定移动方向，但同时也需要考虑到代理想要往某个方向移动的反应强度。例如，如果 100 个代理想向右边移动，因为向右边走是他们的最佳路径，但有 3个人想要向左边移动，因为右边有一个致命的幽灵，那这 3 个代理向左边移动的反应强度明显强于其他代理，考虑到幽灵的存在，顶级代理应该决定向左移动。

Maluuba 公司的研究室经理 Harman Van Seijen，对于他们的最新研究成果发表了一篇文章，文章中写到，当每位代理都果断地做出选择，顶级代理综合利用每个代理的信息后做出最佳选择，那么在吃豆人小姐游戏中就可以获得最好的结果。Harman Van Seijen 说：“虽然每个代理只关心一个特定的问题，但是他们之间有很好的相互作用”。

你以为只是下围棋能赢人类？微软的 AI 在吃豆人游戏上也超越人类了

图为 Harman Van Seijen

为什么 AI 主要研究攻克吃豆人小姐游戏

需要运用最先进的 AI 研究方法来击败类似于上世纪 80 年代 Atari 吃豆人小姐游戏这样的简单游戏，这看上去很匪夷所思。但是 Maluuba 公司的项目经理 Rahul Mehrotra 表示，使用算法来赢得这些简单的电子游戏其实非常困难，因为在玩游戏的过程中可能会遇到的各种各样的情况。

Mehrotra 表示：“许多从事人工智能的公司构建游戏智能算法，因为公司希望人工智能能够像人类一样拥有打游戏的技能。”

Steve Golson 是吃豆人小姐游戏街机版的创始人之一，他说到，吃豆人小姐最初定位是街机游戏，希望游戏对人们有持续吸引力而走出宿舍，所以吃豆人小姐游戏必须掌握人类不可完全征服的游戏程序。

你以为只是下围棋能赢人类？微软的 AI 在吃豆人游戏上也超越人类了

图为 Steve Golson

运营咨询公司 Trilobyte Systems 的 Golson 说到，他们故意设计了吃豆人小姐游戏比普通吃豆人游戏更加不可预测，所以玩家们很难打通关。复杂的游戏使得研究人员试图使用 AI 代理来对随机环境做出理想的反应。Golson 还说到：“使用 AI 代理来通关吃豆人小姐游戏是可行的，但由于游戏的随机性，所需要设计的 AI 程序将尤为复杂。”

强化学习

对于在不断发展的强化学习领域工作的研究人员来说，这种不可预测性极有价值。在 AI 研究中，强化学习是监督学习的副本，是一种更常用的人工智能方法，它能够让系统在做任务时变得更好。

通过强化学习，代理对其每个动作都采取积极或消极的反应，通过不断地试验和犯错误来最大限度地获得积极反应或奖赏。

具有监督学习的 AI 系统，通过给出良好和不恰当的示例，来学习如何在对话中做出适当的回应。而强化学习系统则是通过系统在对话中做出正确的回应，而后获得更高级别反馈的方式来学习对话。

AI 专家认为，强化学习可以用于创建 AI 代理，这样的代理可以做出更多的决定，能够完成更复杂工作，为人们提供更高水平的服务。Mehrotra 表示，他们开发的能够通关吃豆人小姐游戏的系统，就可以为人们提供更好的服务。它可以在特定时间或任意时间帮助公司的销售部门预测商品的潜在客户。该系统可以使用多个代理，每个代理代表一个客户，可以预测很多重要因素，例如：哪些客户会续签合同，哪些合同对于公司是有价值的。

有了 AI 系统预测的帮助，销售主管可以把更多的时间放在潜在客户身上，如此会提高出售机会，因为销售人员的目光已经瞄准了最容易下订单的客户。

Van Seijen 表示，他希望这种分治策略可以被用在 AI 的其他研究领域，如自然语言处理领域。他还说到：“分治策略使人们在解决真正复杂的问题的方式上取得进步。”

via Microsoft