人机大战第二场综述：“自我强化”比2:0更值得注意

AlphaGo 李世乭人工智能围棋

2016/03/10 19:22

人机大战第二场综述：“自我强化”比2:0更值得注意

via medium

今日，围棋“人机大战”第二场于北京时间中午12点开战。下午4点半，韩国棋手李世乭九段再次输给 Google 的围棋程序 AlphaGo。本轮对战的结果虽然还是让人震惊，但人们更多地也开始感叹AlphaGo的优异之处。

今日，AlphaGo的表现中，计算力的先决优势依然不变，同时，由于AlphaGo执黑的先手权，我们也看到了它学习能力和创新能力的一面。

AlphaGo的“特异功能”：自我强化

在DeepMind，爱丁堡和Facebook，研究人员希望神经网络能像人类选手一样，通过观看棋盘学习围棋。Facebook在最新的研究中表明，这种方法确实可行。结合深度学习与蒙特卡洛树搜索方法，Facebook打败了一些人类选手，虽然并非是Crazystone和其他顶尖选手。

但DeepMind走得更远。在经过3000万步人类走法的训练后，它的神经网络能以57%的准确度（此前记录是44%）预测人类的下一步。然后Hassabis和团队通过强化学习技术，让这一神经网络与它自己的另一个稍有区别的版本对战。两者互搏中，系统会评估哪一步效果最好，即占领更多棋盘区域。最终，神经网络在判断哪一步更好时会越来越优秀。

DeepMind的研究者David Silver表示，“在与其它神经网络和它自己对战数百万局后，AlphaGo学会了自己发现新策略。”

正是这种方法，AlphaGo超越了其它围棋AI系统，并让战胜人类选手成为可能。那么，在今天的表现中，AlphaGo如何体现出这样的能力呢？

让人意外的开局

今天的第二局中， AlphaGo执黑先手，众人也纷纷猜测：它会如何开局？会走公认有优势的中国流吗？然而，两手之后，AlphaGo没有选择中国流，而直接挂角。

人机大战第二场综述：“自我强化”比2:0更值得注意

随后，按照这种定式，职业棋手通常会先在下边完成拆边的定型。不过，AlphaGo并没有这么做，而是走出令人眼前一亮的走法：黑棋脱先，还原成中国流布局。

人机大战第二场综述：“自我强化”比2:0更值得注意

为何要脱先？为何要用这种方式完成中国流布局？在AlphaGo数据库中，应该有更多的选择来参考变化。而根据接下来十几手毫不示弱的走法看，这手脱先也许代表着机器人对布局有了新的理解。

出其不意攻其不备

除了开局的策略展示出计算机围棋的另类，AlphaGo在开局后的走子也时常走出出人意料的招数，形成一股“机器风”。

比如，下图黑1的这一手，飘防的走法在过去的棋谱中较为罕见，但其妙处也给了人们新的启发。这手最新的黑1余此前J16的一手遥相呼应，防守中做好进攻的势来。李喆六段表示：“对于黑方这步棋，作为棋手，我的震撼比看到外星人还要大。”这一手让对手李世乭长考了一阵。

人机大战第二场综述：“自我强化”比2:0更值得注意

由于掌握先手，AlphaGo进取的一面也更清楚地展现了出来。比如，在左下方的局部争夺上，拥有强大计算力的AlphaGo应战积极，非常自信。

人机大战第二场综述：“自我强化”比2:0更值得注意

最优化计算：无劫争是必然还是偶然？

今天，许多人都提出了一个疑问：为何两局结束后还没有出现劫争的情形？甚至推论AlphaGo不懂得打劫，且Google方面可以隐瞒。我们暂且不去猜测这种可能性，不妨看看它与AlphaGo走子毫不保留之间的联系。

人机大战第二场综述：“自我强化”比2:0更值得注意

AlphaGo今天表现出一个特点是：毫不保留。如上图黑2，又是一手把变化走干净的棋，与职业选手喜欢有所保留的习惯不同。对此，小编有两个想法：一是，正因为AlphaGo精密的计算力以及作为机器以最强点为首的原则，所以它才会每一步都走到尽，才会走出许多的“怪棋”。二是，也因为如此才导致局面缺乏劫材。

曹大元九段表示，极度复杂打劫的情况本身千年难遇，哪怕是人与人之间的对弈。

人机大战第二场综述：“自我强化”比2:0更值得注意

AlphaGo能给人类围棋带来启发吗？

经此一弈，AlphaGo在许多地方走出特别的一手，给人类棋手带来新的思考。某些也许是失误（但究竟什么是失误，谁知道呢），但某些地方，直播中的曹大元表示：不可思议，我要报警了！不过，这对职业棋手也有很大的启发，可以进行深度研究。互联网进化论提出者刘锋则表示，通过这些迹象，也能帮助我们更好地研究AlphaGo。