专访腾讯AI Lab“绝艺”负责人：把绝艺的技术应用在其他领域还比较远，但我们会开放

作者：老王

2017/03/23 17:43

3月19日，在第10届UEC杯世界计算机围棋赛上，决赛中由腾讯 AI Lab（腾讯人工智能实验室）研发的围棋人工智能程序“绝艺”（Fine Art）击败日本开发的“DeepZenGo”（天顶），以11战全胜的战绩夺冠。

今年共有30支软件参加此次大赛。继18日的循环积分赛中，“绝艺“以七局全胜战绩进入16强后，又以四连胜战绩夺得本届UEC杯冠军，日本“DeepZenGo”获亚军。

为此，雷锋网特地采访了腾讯AI Lab高级总监、绝艺团队负责人刘永升，内容关于绝艺团队的组成、未来在其他领域的应用、背后的云计算、鲁棒性优化，AI面对围棋打劫等问题。

专访腾讯AI Lab“绝艺”负责人：把绝艺的技术应用在其他领域还比较远，但我们会开放

雷锋网：腾讯围棋AI“绝艺”打败日本的DeepZenGo，赢得了UEC电脑围棋大赛。“绝艺”获胜展示了一个什么样的AI技术水平？

很高兴‘绝艺’能够在UEC杯夺冠，这次比赛中有许多优秀的围棋AI团队，比如deepzengo，我们尊敬这些对手和同行。这次比赛是非常难得的宝贵经验。绝艺”参加UEC比赛包括和一力辽下棋，实际上更多的是为了学术交流，也让“绝艺”在和高手的对决中更好地成长。

绝艺涵盖了人工智能最热门的研究领域——深度学习和强化学习，经过人类棋谱和机器自对弈的学习过程，算法基于策略网络与价值网络两大核心，并创新性大幅提升了后者精度。

当然，绝艺的研究对腾讯AI Lab的价值也不止于围棋AI本身，它帮助我们在深度学习、强化学习方面进行了非常有价值的探索和创新，这些都将为将来的研究奠定很好的基础。

雷锋网：“绝艺”的团队组成是什么样的，有哪些技术人才？

AI Lab隶属于腾讯技术工程事业群TEG旗下，TEG一直以来是腾讯技术的基础设施大本营，为其他BG提供技术支撑。AI Lab于2016年成立，专注与AI领域的基础科学研究和应用探索，目前有50余位世界知名学院的AI科学家（90%为博士）、及200多位经验丰富的工程师。

团队是由13位年轻人组成的。一半人做算法研究，一半人做算法实现。所有成员全部隶属腾讯AI Lab。“绝艺”项目除了有腾讯围棋上的围棋高手指导，在公司内部中还有一些行家，比如AI Lab负责人姚星是业余2-3段、TEG总裁卢山总是业余五段，我们后期还请到罗冼河九段来做“绝艺”的陪练。

雷锋网：谈谈“绝艺”的训练过程和“绝艺”几个关键性的迭代和野狐平台训练的作用？就是不断发现问题，修复问题的过程。围棋AI不比其他，必须要像罗洗河老师这样不仅棋力水平超过，并且懂计算机的天才，才能很好的发现AI对弈过程中存在的问题。

迭代方面，绝艺最初的id是“虎虎有生气”，主要和业余强手下，对野狐9段的胜率大概是70%左右；9月份开始，开始使用“野狐扫地僧”，主要和弱职业（指棋手段位）、强9下，胜率大概是80%左右；10月份使用“天下无狗“的ID，还是和弱职业、强9下，胜率可以到90%。绝艺在11月份输给炼心(时越)之后闭关，主要是大幅度提升了价值网络的精度，随后是以刑天的id亮相，短暂使用过“刑天”和“郦龙”两个名字。“绝艺”这个id登录是从去年11月1日开始登录，截至昨日在野狐围棋上对战388胜，120负，胜率76%。

“绝艺”与其他围棋AI最大的不同之处，是在成长上得到了世界超一流棋手的指导。在高手云集的腾讯围棋（野狐围棋）平台上，它与人类棋手不断交流，在对战中学习，腾讯围棋（野狐围棋）上强手如云的竞技氛围给予很大帮助。这也是AI Lab对于绝艺的期待——希望它能与人类棋手积极互动，从而激发更多关注并传承围棋这一中国传统文化。这是我们的一种科技责任感。

雷锋网：细化到棋谱层面，你们用哪些棋谱来训练绝艺的？相比而言是错综复杂且多样化的普通棋谱重要，还是高手与高手之间的顶级棋谱更重要？你们在训练期间如何分配两类棋谱的比例？

都很重要，AI自对弈棋局的量会比人类棋局多非常多。

雷锋网：“绝艺”这次参加的是电脑围棋比赛，这与人机对战有什么不一样？

人比较狡猾，但人容易犯错；机器比较老实，但几乎不犯错。

UEC杯是世界权威的计算机围棋大赛，由日本电气通信大学于2007年创办，承载了计算机攻克围棋项目的使命。一直以来，UEC杯都是人工智能领域的一项盛事，既是各国人工智能研发的实战演练机会，也是世界各团队间技术交流的平台。大赛活跃的团队DeepZenGo、疯石、石子旋风等都是水平很高的明星程序。

比赛对于活化围棋领域、促进AI科技发展有重大作用，并不是单纯为了决出最强AI，我们参与UEC比赛也是抱着与同行交流切磋的心态。

雷锋网：“绝艺”背后的硬件配置什么样的？在绝艺这个项目上，腾讯云对内提供了哪些能力？这些能力是如何转化为产品和服务？对其他参赛团队来说，此事背后的腾讯云有哪些技术优势？

“绝艺”的学习主要包括人类棋谱数据库和机器自对弈，它的算法基于策略网络与价值网络两大核心，并创新性地大幅提升了价值网络的精度，使其大局观表现更好。通俗的说，“策略”指每一步博弈时，各种选择的取舍，选好棋弃差棋，这是偏微观评估；而“价值”则指能看懂棋局，判断给定棋局是不是能赢，这是偏宏观的评估。

“绝艺”背后，是深度学习和强化学习这两个机器学习十分热门的研究领域，它的总体框架遵循AlphaGo去年1月在《Nature》上发表的文章，是一个纯机器学习系统，但在实践中做了超出论文的创新。

举例来说，现代强化学习的核心，是用先进的机器学习算法作模拟器，生成高质量、实际有效的数据（experience replay) －这个过程在围棋AI中被称为自对弈。通过这个方法，可以让得学习到的模型不断通过强化生成的数据来自我提高。

在训练“绝艺”的机器学习模型过程中，我们探索了一些全新、而且非常有效的强化学习方法，能创造出更优质的自我模拟数据，从而导致了更强的模型。比如，和很多其他围棋AI相比，绝艺的对杀能力会更强。AI Lab构造“绝艺”的经验，积累了一系列有效的方法，可以通过自我学习产生高质量的强化学习数据。这些方法可以应用在很多别的场景之中。

至于大家很关心的硬件系统，“绝艺”的线上系统有单机版和多机版：单机版差距和多机版没有大家想的那样大。而多机版所用的机器资源比DeepMind公开数据所透露的要少，所以绝艺不用靠资源取胜。

此外，在训练中绝艺利用了腾讯的云计算资源生成高质量数据，提升了提算法创新速度。这些计算资源在行业内都可以通过腾讯云对外服务直接获取。

雷锋网：绝艺在2月10日时在野狐围棋被几位棋手连杀几局，随后被下线调整。当时到底遇到了哪些问题，你们为此做了哪些调整？

我们在测试布局、中盘、官子三个阶段的平衡，加强中盘之后，对杀问题就不存在了。

雷锋网：AlphaGo与李世石的第四场对战期间，第78手后连续出现了严重的错误，这里就涉及到机器鲁棒性的问题。那么绝艺是如何优化鲁棒性的？

不管是人还是AI，关键时刻犯错，那都是致命的。提升鲁棒性，关键还是要提高策略网络、估值网络的精度，这是一个缓慢提升的过程。

雷锋网：周志华教授之前提到围棋中的“打劫”手段会让价值网络崩溃，微软的郑宇也说到没有了价值网络的AlphaGo其实水平也就职业3段左右，很多人也发现AlphaGo确实会有意避开打劫。那么绝艺在解决“打劫”问题方面有哪些研究？

绝艺在大量的实战中从来不会规避打劫，从来没有碰到打劫奔溃的现象。和超一流高手交手中，绝艺的打劫表现出非常高的水平。我们并没有针对打劫做优化，AI不会打劫更待商榷。

雷锋网：你们打算将“绝艺”系统的相关技术应用于哪些领域？李开复曾说 “AlphaGo其实做了相当多的围棋领域的优化，除了系统调整整合之外，里面甚至还有人工设定和调节的一些参数，因此还不能算是一个通用技术平台，不是一个工程师经过调动API就可以使用的，而且还距离比较远。”绝艺除了围棋外，要应用在其他领域需要解决哪些问题？

从应用价值上，短期看，腾讯围棋是本身国内最大、最活跃的的围棋平台之一，做得好，可能马上就会有很多人能用上；中期看，AI Lab关注四大应用方向：内容AI、游戏AI、社交AI和平台工具型AI，围棋AI就和其中的游戏AI密不可分，是比较独有且创新的应用场景；长期来看，‘绝艺’背后‘精准决策’的AI能力，也能在无人驾驶、量化金融、辅助医疗等地方应用。如果从围棋AI的完美对称博弈系统，进化到不完美对称博弈系统，也就是能处理现实中更常见的不确定性问题时，这里的想象空间非常巨大，当然也是比较长远的应用了。

通过打造“全面AI能力”，腾讯的愿景是让真正的人工智能未来无处不在（Make AIEverywhere），深入到生活中，用AI提升人类的生活品质。AI的未来，不仅仅是提供更安全、高效、便捷的智能工具，更要成为每个人心中的超级英雄“大白”，让小朋友更“被理解”，不会因父母不在身边而缺少陪伴；让成年人更“被保护”，不会因工作的危险让自身安全没保障；让老年人更“被照顾”，不会因身处偏远山区而得不到及时治疗。

雷锋网：对非AI公司以及普通大众来说，绝艺取得大赛冠军这件事有哪些意义，应该怎么看待这个事情？

比赛并不是单纯为了决出最强AI，而是对于活化围棋领域、促进AI科技发展有重大作用。AI Lab对于绝艺的期待也是如此，希望它能与人类棋手的积极互动，能激发更多关注并传承围棋这一中国传统文化。这是我们的一种科技责任感。

在未来我们也会将绝艺的技术开放出来，助力围棋AI的技术研究，从而更好地传承围棋文化。