资讯 人工智能开发者
此为临时链接,仅用于文章预览,将在时失效

One-Page AlphaGo --十分钟看懂 AlphaGo 的核心算法!

作者:三川
2017/05/23 16:42

One-Page AlphaGo --十分钟看懂 AlphaGo 的核心算法!

雷锋网按:本文作者夏飞,清华大学与卡内基梅隆大学毕业,现于谷歌从事技术研发工作。本文是对《自然》上发表的知名论文“Mastering the game of Go with deep neural networks and tree search”进行的总结,对 AlphaGo 的算法结构进行了概括。原总结文用英语写就,经雷锋网编译,阅读原文请点此

下文概括了围棋借助人工智能在 2016 年实现的突破。

围棋是一个完全信息博弈问题。而完全信息博弈,通常能被简化为寻找最优值的树搜索问题。它含有 b 的 d 次方个可能分支,在国际象棋中 b≈35,d≈80;而在围棋中 b≈250,d≈150。很显然,对于围棋,用穷举法或简单的寻路算法(heuristics)是行不通的。但有效的方法是存在的:

通常的步骤是:

状态分数=价值网络输出+快速运行(fast rollout)的策略结果+监督学习策略网络输出

高状态得分(或者说落子)会被选择。价值网络输出和快速运行策略结果是评估函数,在叶子节点进行评估(注意,为了评估快速运行,需要一直到最后一步)。监督学习策略网络输出是一个当前阶段的 action 概率,充作选取分数的奖励分。该分数会随访问次数而退化,以鼓励探索。注意强化学习策略网络只被用于辅助,来生成价值网络,并没有直接在蒙特卡洛树搜索中使用。

到这就结束了,以上就是战胜了人类的 AlphaGo 算法!

via zhihu,雷锋网编译

相关文章:

4.5小时鏖战,柯洁1/4 子惜败AlphaGo

王小川评AlphaGo 2.0:和1.0原理大不同 更接近于人

28 天自制你的 AlphaGo(一)

长按图片保存图片,分享给好友或朋友圈

One-Page AlphaGo --十分钟看懂 AlphaGo 的核心算法!

扫码查看文章

正在生成分享图...

取消
相关文章