资讯 特写
此为临时链接,仅用于文章预览,将在时失效

人机大战第二场综述:“自我强化”比2:0更值得注意

作者:温晓桦
2016/03/10 19:22

人机大战第二场综述:“自我强化”比2:0更值得注意

via medium

今日,围棋“人机大战”第二场于北京时间中午12点开战。下午4点半,韩国棋手李世乭九段再次输给 Google 的围棋程序 AlphaGo。本轮对战的结果虽然还是让人震惊,但人们更多地也开始感叹AlphaGo的优异之处。

今日,AlphaGo的表现中,计算力的先决优势依然不变,同时,由于AlphaGo执黑的先手权,我们也看到了它学习能力和创新能力的一面。

AlphaGo的“特异功能”:自我强化

在DeepMind,爱丁堡和Facebook,研究人员希望神经网络能像人类选手一样,通过观看棋盘学习围棋。Facebook在最新的研究中表明,这种方法确实可行。结合深度学习与蒙特卡洛树搜索方法,Facebook打败了一些人类选手,虽然并非是Crazystone和其他顶尖选手。

但DeepMind走得更远。在经过3000万步人类走法的训练后,它的神经网络能以57%的准确度(此前记录是44%)预测人类的下一步。然后Hassabis和团队通过强化学习技术,让这一神经网络与它自己的另一个稍有区别的版本对战。两者互搏中,系统会评估哪一步效果最好,即占领更多棋盘区域。最终,神经网络在判断哪一步更好时会越来越优秀。

DeepMind的研究者David Silver表示,“在与其它神经网络和它自己对战数百万局后,AlphaGo学会了自己发现新策略。”

正是这种方法,AlphaGo超越了其它围棋AI系统,并让战胜人类选手成为可能。那么,在今天的表现中,AlphaGo如何体现出这样的能力呢?

让人意外的开局

今天的第二局中, AlphaGo执黑先手,众人也纷纷猜测:它会如何开局?会走公认有优势的中国流吗?然而,两手之后,AlphaGo没有选择中国流,而直接挂角。

人机大战第二场综述:“自我强化”比2:0更值得注意

随后,按照这种定式,职业棋手通常会先在下边完成拆边的定型。不过,AlphaGo并没有这么做,而是走出令人眼前一亮的走法:黑棋脱先,还原成中国流布局。

人机大战第二场综述:“自我强化”比2:0更值得注意

为何要脱先?为何要用这种方式完成中国流布局?在AlphaGo数据库中,应该有更多的选择来参考变化。而根据接下来十几手毫不示弱的走法看,这手脱先也许代表着机器人对布局有了新的理解。

出其不意攻其不备

除了开局的策略展示出计算机围棋的另类,AlphaGo在开局后的走子也时常走出出人意料的招数,形成一股“机器风”。

比如,下图黑1的这一手,飘防的走法在过去的棋谱中较为罕见,但其妙处也给了人们新的启发。这手最新的黑1余此前J16的一手遥相呼应,防守中做好进攻的势来。李喆六段表示:“对于黑方这步棋,作为棋手,我的震撼比看到外星人还要大。”这一手让对手李世乭长考了一阵。

人机大战第二场综述:“自我强化”比2:0更值得注意

由于掌握先手,AlphaGo进取的一面也更清楚地展现了出来。比如,在左下方的局部争夺上,拥有强大计算力的AlphaGo应战积极,非常自信。

人机大战第二场综述:“自我强化”比2:0更值得注意

最优化计算:无劫争是必然还是偶然?

今天,许多人都提出了一个疑问:为何两局结束后还没有出现劫争的情形?甚至推论AlphaGo不懂得打劫,且Google方面可以隐瞒。我们暂且不去猜测这种可能性,不妨看看它与AlphaGo走子毫不保留之间的联系。

人机大战第二场综述:“自我强化”比2:0更值得注意

AlphaGo今天表现出一个特点是:毫不保留。如上图黑2,又是一手把变化走干净的棋,与职业选手喜欢有所保留的习惯不同。对此,小编有两个想法:一是,正因为AlphaGo精密的计算力以及作为机器以最强点为首的原则,所以它才会每一步都走到尽,才会走出许多的“怪棋”。二是,也因为如此才导致局面缺乏劫材。

曹大元九段表示,极度复杂打劫的情况本身千年难遇,哪怕是人与人之间的对弈。

人机大战第二场综述:“自我强化”比2:0更值得注意

AlphaGo能给人类围棋带来启发吗?

经此一弈,AlphaGo在许多地方走出特别的一手,给人类棋手带来新的思考。某些也许是失误(但究竟什么是失误,谁知道呢),但某些地方,直播中的曹大元表示:不可思议,我要报警了!不过,这对职业棋手也有很大的启发,可以进行深度研究。互联网进化论提出者刘锋则表示,通过这些迹象,也能帮助我们更好地研究AlphaGo。

长按图片保存图片,分享给好友或朋友圈

人机大战第二场综述:“自我强化”比2:0更值得注意

扫码查看文章

正在生成分享图...

取消
相关文章