没有什么是永垂不朽的,没有什么会一直昌盛,所以我宁愿做点真正有意义的事情,来致敬这个风起云涌的人工智能时代。
-------题记。
近日,田渊栋受地平线曾经在Facebook的同事邀请,赴中国做了一期大牛讲堂,分享了关于游戏和增强学习等的话题。分享会后,AI科技评论采访了田渊栋,就他为什么离开Google无人驾驶团队去Facebook人工智能研究院,现在正在做的工作,如何平衡工作中理论和应用的比率,怎么看待绝艺和AlphaGo的棋艺水平,怎么看待智能围棋的实用价值,接受了AI科技评论的采访。以下是采访正文。
我觉得围棋是很有意思的游戏,AlphaGo虽然把它做出来了。但很多东西的做法和人是不一样的。人在学围棋的时候有很多概念,按照概念做判断,但是机器解决他还是比较暴力的。
一方面,你可以说人用概念来做推理局限了他的计算能力,体现出人本身有一个高度抽象的能力,就是用非常非常局限的计算能力,能达到那么强的棋力。而AlphaGo就是用非常多的计算能力去弥补这些不足,所以恰恰是互补的,我相信还是有意义的。
另一方面,联系到后面那个问题(目前你的研究团队,对围棋AI的研究进展到何种地步?相比AlphaGo如何。),我们这边在开源之后就先放在那儿了,可能等到以后我们有新想法再拿过来试一试。我们这边是七八十人的研究机构,要让我们花二十人做围棋,这个是不可能的。我们这边都是很有名的研究员,这些研究员每个人都有自己的方向,像计算机视觉和自然语言处理等等,不可能把自己的方向放弃掉来专门(搞围棋)。
最后,从本质上来说,我们的风格跟其它公司不一样。我们研究员的一个目标是说在大家不做这个东西的时候,在比较冷门或者大家不相信它能做得更好的时候去做它,证明这条路能走通。比如说我们在做DarkForest的时候,围棋还是很冷门的方向,大家都不认为围棋可以做出来。我们的文章比AlphaGo早了三个月出来,证明这个东西确实有效果,而且能提高挺多的,这就是我们的贡献。我之前在采访里面说过,好的研究就是“于无声处听惊雷”。
像星际这样的游戏,大家都不知道怎么做,研究员们的任务就是要想办法找到一些突破口,这个突破口可能没有人想到,或者是没有人觉得能做成,我们的目标是在这儿。我回到第一个问题,就是说智能围棋之后还有什么意义,就是我刚才说的,如果有人愿意想要做下去的话, 就看能不能自动从里面学出一些概念来,学出一些有意思的东西,比如说人有大局观或者是大势,或者是各种下棋时候的概念,概念是不是能从这里面自动学出来。像这些,目前大家都没什么办法。
(你说大局观吗?)
对,像这样的东西其实对于我们如何理解人的思维方式是更重要的。职业棋手是很厉害的,人脑的神经传导是毫秒级的,这点时间机器可以干很多事情,但人就是用这么慢的处理速度达到了这么强的水平。
这个我稍微看了一下,我觉得绝艺肯定是比Zen要强挺多,200手不到就让Zen认输了。我之前看新闻是它对职业棋手可以战胜80%甚至更高,所以我相信它已经是做得非常好了,我相信它肯定是超过了或者是相当于AlphaGo之前Paper(AI科技评论注:2016 年 1 月 28 日,Deepmind 公司在 Nature 杂志发表论文 Mastering the game of Go with deep neural networks and tree search,介绍了 AlphaGo 程序的细节。)的水平,但是它跟现在的Master相比,可能还是有差距。
跟3月份(对战李世石)的时候这个我不好说,我只能说和Nature那篇论文相比做得好, 当然了跟Master比是有差距的,现在Master所有对战是全部都是赢的,没有输的,胜率是100%,而且都是赢的莫名其妙。Master赢了你,你都不知道什么地方出错了,好像下得挺好的,然后就输掉了。所以就是已经到了不知道错哪儿的程度了。我相信他们应该用别的方法做训练的,而不是单纯拓展之前的文章。像我是听说他们最近把训练好的值网络单独拿出来,根据它再从头训练一个策略网络。我觉得这样做的好处是会发现一些看起来很怪但其实是好棋的招法,毕竟人类千百年下棋的师承形成了思维定式,有些棋在任何时候都不会走,所以按照人类棋谱训练出来的策略网络终究会有局限性;而用值网络作为指导,从头训练一个策略网络的话,确实会发现很多新招。
(AlphaGo用其他的方法迭代的?)
我相信他们也用了别的办法,但是细节我也不知道,因为我最近也没有做,所以我也不知道他们用什么样的办法,我觉得这方面需要创新。
电脑围棋我们之前也参加过,就是大家坐着,连上之后让计算机自己下,下到什么地方就说我输了你输了,然后就结束了,有可能说我们看看剩下好像不行了,但是机器误判,就让人去认输。 基本上是这样的过程。
(那我可以这样理解吗?跟电脑围棋比赛的是两个既定程序的对战,比如说电脑围棋绝艺跟真人,比如柯洁对战的时候,是变动性更大一点,是吗?)
我相信是的,因为电脑围棋至少在之前都是有些明显的风格,比如说有些喜欢在角上和你拼,不愿意去外面抢大场。人可能能看出来这个风格,就会击败它,特别是水平不是很高的两个AI下的话,很明显能看出问题,比如我们DarkForest就有死活的问题,我们自己会说,你看这里下得不对,肯定是这里下错了,这个地方他可能判断有问题,以为这块棋是活的,其实是死的,所以会有各种各样的问题。当然了,如果是达到绝艺或者是AlphaGo这样的水平的话,我肯定是看不出来,我需要计算机辅助帮我下到后面才能看到,但是我相信职业棋手还是能看出来,但Master我不知道,我不是特别清楚。
我觉得现在这个系统是针对于某个问题做特别优化,我之前在 talk里也说了,那么多方法,要依照不同的游戏用不同的方法,没有那么通用的。比如说你在国际象棋上用蒙特卡洛树搜索肯定是不行的,你可能漏搜了某一条特别重要的分支,然后导致一个杀王的走棋序列没有看到,这是非常有可能的。所以整个AlphaGo是一个大的系统工程和框架结构,它需要有几个人每天花时间在上面,还得每天不停地调啊调。所以说,现在所谓的 “人工智能” 还是比较弱的,还是需要人去监督,然后把它做出来。
(如果是要针对某一个特定领域呢?)
就是我刚才说的,你先要对这个领域有了解,然后去设计。比如说围棋和国际象棋就不一样,国际象棋每步的可能性比较少,对局面的判断相对容易,因为这个原因,你要换一个方法做,而不是用原来的方法做。所以对于方法的选择,其实是完全依赖于这个问题本身的,所以这个是需要大量的人工智能相关知识才能做出来的。
一个问题就是说像完全信息博弈游戏,你知道你下完这步后局面会变成什么样子,你心里非常非常清楚。但到了现实世界的时候,有时候并不那么清楚,没有一个现实世界给你玩,你做完决定之后你得对这个决定的后果负责,所以对这个世界在你下完决定之后变成什么样子,你要有一个大概的估计。
所以你在现实世界做规划的时候,其实需要一个前向模型(forward model), 就是你对将来会发生什么事情的一个预计,前向模型是一种规划,是对将来会发生什么样事情的预计 。比如说你下完这步之后,可能整个情况变成什么样子,之后你再做下一步的计划。所以这个其实是很大的问题,是游戏和现实生活中是不同的。
前向模型就是你要对现实世界的运行规律做一个模型。比如说你这个房子过了几年会变成什么样子,比如说这朵花过几年会变成什么样子。你当然不可能能预测所有细节,要找到关键性的方面,才能让你的蒙特卡罗树之类的搜索产生效果。比如一个国家30年后会怎么样,和现在这束花是不是会枯萎没什么关系,但可能和大家的收入统计有关系。所以关键就是怎么对现实世界来做出抽象的建模。
长远来说,通过在绝艺上投入的人力和物力,这些工程师的思考本身可以变成经验。比如说它在人工智能上通过对于绝艺的提高,他知道了蒙特卡罗树的适用范围,知道了增强学习算法的适用范围,对这些算法有一个切身的理解。这样之后,如果去从事其它方向的AI,就更加得心应手 。
我不知道“绝艺”是怎么做的,如果他们用的是Alphago相似的(原理)的话,要用到其他领域上,就不是特别容易 。比如说像辅助医疗,可能更多的是去识别图片,去怎么样去找到病变组织,这个其实更多的是图像识别的问题,而不是说关于决策的问题。所以这个其实关系不是特别大,但是不好说,说不定他们有方法。
这个我也不知道多少,感觉是完全不一样的。你说金融领域,关键是你想要解决什么问题,你想预测股票价格,还是想要预测什么?
(比如信用体系一般比较多。)
根据不同的具体问题可能又是完全不一样的方法,所以你没有办法说把这套框架用在某一个很大的领域,因为这个领域有很多问题,你得列出来,对应每个问题去想这个方法能不能用,所以我觉得这个问题其实很难回答。
(这个是要靠AI加某个垂直应用场景的实践,是吧?)
嗯是的。目前为止现在还不存在一个强人工智能,像人一样什么都可以学会,现在没有这样的东西,所以现在对应具体的问题我要具体分析,根据这个问题再分析,决定用什么样的模型去做它比较好,所以现在是处于这样的状态。所以说机器还不能自己决定用什么模型,还是需要人的输入 。
我们现在主要在做增强学习在游戏上的应用。比如说我在Talk里面讲了围棋和最近在第一人称射击游戏上的应用。另外我也做理论,比如说对于二层神经网络做一些收敛性分析,像这个非凸优化问题,要怎么分析才是好的。
(现在最主要的哪一部分是重点?是理论还是偏应用。)
重点当然是偏应用。理论这个是我以前读博的方向,也是我个人爱好,我自己比较喜欢,觉得深度学习之所以效果好,肯定有其背后的原因,这个是很重要的问题,需要人去理解,不能放弃。当然纯做理论风险比较大,这个大家都知道。
其实有很多点是挺关键的,没有特别重要的,说我们就差这个点了,不是这样的 。其中一个就是你怎么样去像人那样有高层的建模能力,人可能对一件事情会有比较整体的把握。什么是战略上的。什么是战术上的,什么是具体执行上的。人在处理问题时很自然就会有这样层次式的思考方式。目前为止很多人想做这个。虽然你可以设计很多模型,但没有看到特别稳定的,很多模型听起来很好,但是训练的时候,效果会有问题,会有很多实际的问题,没办法做到跟你想象中的那么好,这是一个问题。另外比如说,如何让机器能在外界监督信号极度稀缺的情况下学习,如何做无监督学习,如何把传统符号推理和深度学习结合起来。
我觉得,理论上来说有一些小小的进展,我之前做了一篇文章研究了两层神经网络的动力学系统,神经网络它是怎么收敛的,需要什么条件。 像这个就是更偏研究类型的。实践上来说,有一些东西我们在做,不方便说。另外就是多看文章,现在还处在一个积累的过程,多看点儿文章,多理解一些别人做的工作,就会有一些更多的想法。
下一步工作也是围绕上面说的那些,继续往下进行?
对。
其实现在是这样的,我们组是比较偏研究的,所以我们组的东西不一定要跟产品组有直接联系。我们做的东西都会比较前沿一点,不一定会有直接的应用,这是我们这个组很好的地方。我们公司也赋予这样的自由度。你想,你做的东西完全跟产品挂钩,每隔几个月就要求汇报进展,那这样的话最后的结果就是大家只找最容易做的那些方向,在原来的系统上修修补补。这样大家就不会愿意去想更多的东西了。
(像您刚才说的做研究,需要把一个现在还冷门的东西钻进去。)
对,比如说训练围棋,当时没有多少人知道这个东西。做研究最重要的是能够在那么多方向上,你能看到一个方向是对的,愿意花时间把它做出来,证明它是对的,这个是很重要的。
(之前看过您那篇在谷歌和Facebook的一个比较,在谷歌是没有这种自由度的?)
不能这么说。因为在谷歌时我在无人车组,这是个产品组,决定了必须要有一个非常清楚的脉络和将来的走向。我当时其实也是想做一些开放性的东西,但是觉得环境也不是特别适合,所以就走了,这是原因之一,我并不是说这个组不好,这个组挺好的,确实是因为我个人的志向和组里的发展方向不一致,所以我就走了。
这个我觉得是一个思考的方式,东西要写下来之后你才知道什么地方出问题了,一个典型的例子就是做数学证明嘛,你觉得好像是对的,但是你写下来才能证明,很有可能一落笔就发现错误了,这个是司空见惯的事情。
(但是其实写博客和写论文还是两种东西嘛,因为写博客可能不会写得那么深。)
论文当然抠得细得多,但大方向都是一样的 。写博客的时候一样要有逻辑,很多话当时想的是这样,但是写下来发现这两句话不连贯,或者是逻辑不通,所以你在整理的过程中其实就是在整理你的思路,这个是挺重要的。
这个对研究来说非常重要,研究者的一部分工作是要把自己的成果公诸于世。要以清楚的语言概括在做什么,所以这个其实是我作为这个职位的要求之一,所以这个重要性就不用多谈了。
(必须要把现在这个事情给别人说清楚,得到别人的认可?)
对,你要跟别人说清楚,当然公司里面还好,但你在学校里边的时候,你在团队里面作为技术带头人,必须出去跟其他公司谈,或者说跟上层说我需要资源做这样的事情。这样表达能力就非常重要了,如果你没有办法表达清楚你想要做什么的话,别人不一定能相信你,也不会给你各种资源。另外比如说你遇到的人才,觉得你做的东西他没听懂,或者是不知道你在做什么,他也不会愿意跟你一起共事。作为一个研究员来说,或者是任何在研究这条路上愿意走的后辈人来说,这个很重要。
第一点,我不是什么过来人,我还要往前走,我也觉得我也只是很多方向刚开始的人,我也不觉得我是一个非常资深的研究员。你之前说我是高级研究员,我们组没有高级研究员这个头衔。
(你现在在Facebook的头衔是什么?)
头衔就是研究科学家,其实就是研究员。我也不觉得我自己做得有多好,只能说很多事情尽力了 。如果你要翻一下我两三年前的文章,我之前是做非凸优化在图像扭曲上的理论分析的,很荣幸地拿了马尔奖提名。我都不是做这方面(深度学习)的,我也不是做强化学习的,这些方向都是我最近觉得很有意思,然后自己学并且尝试做的。所以从这方面来说,我对目前我的工作觉得还行,想想只有一两年时间,会有这样的知名度和曝光率,这已经是出乎我的意料了。但是不管怎么样,曝光率再高,我觉得我自己还是要往前走的,我有很多东西不懂的,前面的路还很长的。所以要说对于其他人的建议,我觉得是就静下心来做事情,文章该看的要看,该学的要学,程序该写的要写,该调通的调通,一步一步往前走。
(就是把眼前的事情做好?)
对。当然方向还要看清楚的。做为一个研究者,要自己看文章定方向,不能人云亦云,这个是身为科研人员最重要的特质。然后做自己想做的事情,重要的就是要做自己想做的事,并且花时间在上面。不要说今天公司有很多钱,我就去了,这样的话对将来的发展不是特别好的,希望大家能找到自己想做的方向,主要是这一点。还有就是珍惜时间吧,大家的时间都是很宝贵的,如果愿意做一些事情,就早点行动,把事情很快地做好。另外要不断地提高自己。
AI科技评论在采访田渊栋的时候,
在问到DarkForest现在的进展时,他表示 “我们这边其实目前还没有继续做,在开源之后就先放在那儿了。”。
在说道人工智能有什么意义的时候,他表示“就是我刚才说的,如果你继续做下去的话,我们想能不能自动从这里面学出一些概念来,学出一些有意思的东西……像这样的东西其实对于我们如何理解人的思维方式是更重要的。”
在问道你现在在Facebook的头衔是什么时,他表示我的“头衔就是研究科学家,其实就是研究员。”
类似这样的风格的回答很多很多,给近在迟尺的AI科技评论展现了一个直白坦率,严格待己,谦虚待学的生动形象。这跟我们采访AI业界公司大佬时他们觉得他们能解决这个问题,他们没遇到什么困难,他们即将所向披靡的那一面然不同,眼前的这个年轻科学家体现的是学界人士低调,谨慎,求是的另一面。但值得一提的事,AI科技评论看到那张谦逊却带了一点点桀骜不驯的脸的背后,的是一个对自己有极高要求,对理想有极高追求的,不愿意人云亦云,却希望真的在人工智能领域有所作为的科学家的心。在孤独和庸俗,在跟着心走和大流之间,他选择了孤独和跟着心走。
雷锋网【AI科技评论】注:文章由雷锋网【AI科技评论】独家专访,未经雷锋网【AI科技评论】许可,拒绝转载。