Google人工智能攻破了围棋，然后呢？

人工智能围棋 Google DeepMind

2016/01/28 12:17

Google人工智能攻破了围棋，然后呢？

Google日前宣布其程序AlphaGo击败了欧洲围棋职业选手，这意味着人工智能技术又或得了极大的突破。

计算机目前已经在许多智力游戏比赛上战胜了人类顶级选手，包括国际象棋、五子棋、黑白棋、拼字游戏等等。而对于有着2500年历史的东方游戏围棋——比国际象棋要复杂得多——人类始终能够保持在和计算机对决中的胜利。不过，Google人工智能专家表示，这个壁垒或许很快将要被打破。随着AlphaGo在没有任何让子的情况下以5：0完胜法国围棋职业二段棋手樊麾，AlphaGo将在三月份对战韩国九段棋手李世乭。

今天早上，《自然》杂志发表了一篇Google DeepMind团队——程序AlphaGo的创造者撰写的关于深度学习系统的论文。根据论文描述，在AlphaGo中，DeepMind研究员在程序中录入了大量职业棋手的棋谱——加起来多达3000万步——他们用增强学习的方法训练AI，让它自己下棋，研习棋谱。不过这只是第一步。理论上，这样的训练只能让这个人工智能系统无法突破人类的计算。为了获得更好的成绩，研究员随后让系统进行自我博弈，计算出比基础棋谱更多新的打点。也就是说，战胜人类就要靠这些新的东西。

“这其中最重要的是，AlphaGo不仅记录着大量的棋谱，还有一系列规则来指导‘思考’，”DeepMind CEO Demis Hassabis说道，“事实上，该程序能够通过机器学习的方式掌握比赛技巧。”

DeepMind的技术核心结合了“强化学习”及其他人工智能手段，这种技术能够用于解决现实机器人执行物理任务和对环境作出回应的技术问题。就是说，要让机器人变得更“自然”。

视觉判断

2014年初， Coulom的围棋程序“疯石（Crazystone）”在一次比赛中战胜九段棋手依田纪基。但是当时是在人类棋手让出4子的情况下赢得比赛，而这次AlphaGo并没有被让子，可以说比赛很公平。

人工智能战胜人类围棋到底有多难？即使是最强大的计算机系统也无法在合理的时间内分析出下一步最优的走法。1997年IBM超级计算机“深蓝”则利用了蒙特卡洛搜索树的方式做到了这一点。“深蓝”能够预测出对手下一步会怎么走，而且计算力远高于人类。但是，围棋要复杂得多。国际象棋每一步平均只有35种可能性的走法，但是围棋呢——在19*19的棋盘内，共有361个点，就机器学习的角度而言，围棋的计算最大有3^361次方种局面，大致的体量是10^170，而已经观测到的宇宙中，原子的数量才10^80。国际象棋最多只有2^155种局面

使用蒙特卡洛树搜索技术，Crazystone等系统能够进行更长远的计算。而结合其他技术的话，它们能够对可能性走法进行刷选，然后选择出最优的策略。在大多数情况下，它们能够战胜人类选手，但不是最厉害的那一个。顶级大师中，走法很多时候依靠直觉——做棋除了需要计算，还有棋感——棋手能够根据棋形分析攻防线路。“好的棋形看起来顺手多了，”Hassabis本身也是一名围棋手，“这其中不只有计算角力，还有审美。这也是围棋几千年来都让人着迷的原因。”

因此，从2014年至2015年间，包括Facebook、爱丁堡大学、DeepMind等人工智能研究团队都将围棋人工智能系统的突破方向瞄准为——使得程序能够模仿人类的直觉式思维。

自我强化

深度学习要依靠神经网络技术，它是可以模拟人脑中神经元网络的软硬件网络。神经网络不会依靠蛮力或预先输入的规则，而是会分析大量数据，“学习”特定的任务。给神经网络提供足够的喵星人照片，它就能学习识别喵星人；提供足够的语音，它也会学习理解人类的语言；提供足够的围棋走法，它也会学会围棋。

在DeepMind，爱丁堡和Facebook，研究人员希望神经网络能像人类选手一样，通过观看棋盘学习围棋。Facebook在最新的研究中表明，这种方法确实可行。结合深度学习与蒙特卡洛树搜索方法，Facebook打败了一些人类选手，虽然并非是Crazystone和其他顶尖选手。

但DeepMind走得更远。在经过3000万步人类走法的训练后，它的神经网络能以57%的准确度（此前记录是44%）预测人类的下一步。然后Hassabis和团队通过强化学习技术，让这一神经网络与它自己的另一个稍有区别的版本对战。两者互搏中，系统会评估哪一步效果最好，即占领更多棋盘区域。最终，神经网络在判断哪一步更好时会越来越优秀。

DeepMind的研究者David Silver表示，“在与其它神经网络和它自己对战数百万局后，AlphaGo学会了自己发现新策略，并逐渐提高了水平。”

正是这种方法帮AlphaGo超越了其它围棋AI系统，包括Crazystone。但事情还没完，研究人员随后将结果再反馈给第二个神经网络。了解前任的走法了，第二个神经网络会使用许多相同的技术来判断每一步的后果。这一过程与深蓝等旧系统在国际象棋上的做法类似，只是它会在下棋过程中学习，分析更多数据，而非暴力破解所有可能的步骤。这样，AlphaGo不仅能战胜AI，还能战胜顶尖人类选手了。

计算机网络

Google人工智能攻破了围棋，然后呢？

李世乭

与其它神经网络一样，DeepMind的系统运行在配备了GPU的机器上。GPU最初用于渲染游戏图像，但后来有人发现，它们很适合深度学习。Hassabis表示，DeepMind系统在装备了一定数量GPU芯片的单一电脑上也可以用，但与樊麾对战中，他们用上了更大的计算机网络，其包括170个GPU和1200个标准CPU。大的计算机网络训练了同样的系统并进行了实际对战，还借鉴了训练的结果。

尽管Hassabiss会不断改善系统，但待AlphaGo与韩国选手李世乭对战时，他们会使用相同的配置。比赛中系统也需要网络连接，而且他们会“自己铺设光纤”。

挑战世界冠军比挑战樊麾难得多，但Coulom还是认为DeepMind会赢。他过去数十年一直在开发能打败最好选手的系统，现在他认为这一目标已经实现了，他买GPU会赢。

接下来……

AlphaGo的重要性不言而喻。同样的技术还能用于机器人和科学研究，以及类似于Siri的数字助理和金融系统。深度学习创业Skymind的创始人Chris Nicholson就认为，技术“能用于任何对抗性问题，任何类似于游戏且需要策略的事情，包括战争、商业和交易”。

对有些人来说，这是一件值得忧虑的事，特别是DeepMind的系统还能自己学会下围棋。它不仅能从人类提供的数学中学习，还能生成自己的数据，在与自己下棋中学习。特斯拉创始人埃隆·马斯克等大佬多次声明，这类AI系统会最终超越人类智能，脱离掌控。

幸而DeepMind的系统还在Hassabis等人的控制之下。虽然他们用系统破解了复杂的游戏，但这仍只是个游戏。AlphaGo离人类智能还很远，更不论超级智能了。下棋是一种高度结构化的情景，系统也没有人类级别的理解力。但它代表了一种方向，即如果AI能理解围棋，它也会理解更多事。如果宇宙就是一局超大型的围棋呢？

via Wired

作者：张驰晓桦