雷锋网 AI 科技评论按:想必大家都对前段时间火遍学术圈的 BiCNet 并不陌生,这个 UCL 与阿里巴巴合作的多智能双向协作网络,可在星际争霸中研究多智能体间的协作学习。在今年由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的第二届CCF-GAIR全球人工智能与机器人峰会上,我们荣幸地邀请到了伦敦大学学院(UCL)计算机系教授汪军博士做了主题演讲。
汪军教授在题为《A Society of AI Agents》的演讲中,从多智体群体的特征切入,介绍了多智体的强化学习特性。具体表现为:在同一环境下,不同的智体既可以单独处理各自的任务,又可以联合在一起处理优化一个主要的目标方程,而且会根据具体的情况会有不同的变化。此外,汪军教授还以多个例子阐述了强化学习与环境的关系。
演讲全文:UCL计算机系教授汪军:如何进行大规模多智体强化学习?| CCF-GAIR 2017
汪军教授告诉雷锋网 AI 科技评论,实际上他此前准备的是《Artificial Collective Intelligence》的演讲主题,但近期因为在多智能体领域有了一些新的研究和尝试,因此他在 CCF-GAIR 大会的演讲中所引用的两篇论文也是第一次在公开场合露面。其实他在演讲中想讲的东西还有很多,因此在演讲之后,雷锋网 AI 科技评论与汪军进行了一次对话,雷锋网整理如下:
目前学界少有人在多智能体上进行深度学习方法的研究,这是因为大家目前还只关注单个智能体的作用,还是说这个议题本身就非常难?
其实多智能体是一个研究领域,也有自成一体的会议,研究的人也很多。但目前将多智能体结合强化学习,特别是深度强化学习,目前还是比较新的一个话题。
首先,研究者要解决只有一个智能体的问题,比如说象棋、围棋,等这个问题解决之后,可能就会接着用深度学习去处理更多的智能体。你可以看到,这有一个自然的脉络在其中。所以今年就特别明显,有很多多智能体的问题采用了深度学习的方法去解决,包括 UC 伯克利的一个研究室,做了一个理解语言的研究。在一个给定的场景下,研究者让多智能体们自己去通讯、去交流,但不告诉彼此交流的内容,最终发现慢慢地,语言就有可能在其中产生。因此这个也非常有意思。
我们团队可能是从另一个角度出发,想象这些场景在生物学上有没有什么规律,比如有可能会出现 Leader,那么我们可以在这个过程中理解领袖是如何产生的,是不是有些智能体自己就会成为领袖。我们现在所理解的内容就是所谓的「grouping」,也就是在给定一些特定条件下,可能就会认为这些多智能体可以成为一个团队,这与人类最早最原始的状态其实是一样的。最早的时候人需要捕猎,出于安全的考虑可能会组成一个团队。所以我们通过深度学习的方式,可以学习到以前完全学习不到的东西,甚至对人类学可以了解。
更进一步地,我们是不是可以学习宗教是如何产生的?宗教到底是什么,因为每个人都可能是自私的,或者每个人都有自己的利益,如果有一个宗教把这些人约束起来,可能这个集团的利益可能会最大化。当然,我现在所说的只是一个假设,现在还没有人去研究这个,我们所做的研究也只是第一步。
您在演讲中也提到,目前很少有人研究超过 20 个智能体的协作,但您也提到了比如说像滴滴的调度问题,还有共享单车的问题。实际上 MSRA 的城市计算,或是滴滴研究院的调度系统都有类似的交通系统研究,但它是属于一个系统调动所有的个体,那么将行为个体作为智能体的意义在什么地方?
在多智能体的情况下,你有两种设置情况,一种情况是让每个人之间只优化自己的利益,利益之间虽然可能会有些联系,但是每次做决定的时候,双方不需要知道对方所做的决定。
还有一种是协作关系,在做决定之前需要相互获取一些信息,最后联合起来做一个决定。这两个情况是不一样的,如果你把它放到一个最特殊的情况,就像你刚才讲的,我有一个大系统,我把所有的多智能体全部一起优化,这时候呢这个多智能体其实就转化成了单智能体,你可以把它当作一个智能体,只不过它的这个输出太多了,每个都要输出一个结果。但这个计算量太大,可能有一百万个,如果每个都要去权衡决策的话,这是不现实的。所以一般来说会选择一种完全独立的,或者中间有双向通讯的方式。
那这样是不是也涉及到一个博弈问题?
对,博弈有两种,一个是啊就是我们所谓的零和博弈,就像下棋一样,你赢了我就输了,它是一个互相博弈的情况。那么还有一些协作的关系,比如我们俩的目标是一样的,那么会涉及到双方的贡献程度。
那么您在演讲中所说的生态系统的例子,其实是希望找到背后的一些生态学规律?这些理论性的内容能够如何被应用呢?
其实有两个层面。第一个是,我们想从科学上面理解它背后的规律,要满足我们的好奇心。比如说人工智能体在做出一个群体以后,是不是跟大自然的表现情况是一样的,如果不一样,有什么差别?如果一样,为什么?我们完全不会考虑它可能会有什么(应)用,主要还是满足我们的好奇心。
我们当时做环境动态变化研究的出发点在于,在玩游戏的时候,比如说玩王者荣耀,如果你玩游戏的水平比较弱,如果对手设计得太强了,你玩一下就觉得没意思了;如果你的水平很强,但这个游戏对手的难度又很弱,你玩着也没有意思。因此游戏难度的设计,本身也就是优化这个游戏本身的一个过程。
但游戏还是在一个虚拟环境下设计的,那么在实际情况和实际应用里,如何进行各种指标的量化?
主要有两点,一个是在有些情况下你可以自己设定,那么进行试错就可以了。如果是理论性更加的话,还有一种叫「Inverse Reinforce Learning」的方法,就是说反过来玩,我们有一些最优化的策略作为训练集,然后把它放回强化学习系统里去学习 reward ,然后用获得的 reward 再去解决新问题。
其实我看您的近期研究内容与 GAN 的联系非常紧密,包括 SeqGAN、IRGAN 等。你觉得目前 GAN 是一个比较有效的方法吗?还是说,与 GAN 的结合会是未来的一个趋势?
我们的 SeqGAN 出来之后,现在是目前唯一一个可以用在离散数据上的有效方法,所以今年你会看到有很多论文用 SeqGAN 去解决文本问题,所以我们那个文章的引用就变得非常高。
有研究者采用的是另外一个方法,那个方法理论很好,但是实际数据的表现还不是太好。所以我们现在也在尝试,是不是要在一些标准的数据集上再好好地把效果提上去。
那如果引申到您非常擅长的推荐系统与计算化广告领域,您觉得应该如何用深度学习结合起来?
比如像 GAN 的话,我觉得现在就火得有点过了,它在解决某些问题可能还是够呛。(比如说呢?)比如说像离散数据就比较难解决,我们也只是提出了一个方法,具体效果好坏大家也都还在尝试。此外,在优化的时候不一定效果很好,可能要试很多次,不像现在的 Deep Learning。
以 IRGAN 为例,这是您与学术界进行合作的一个成果;而像 BiCNet 这样的多智能体协作系统则是与工业界合作联系的,那么在这两个研究中,您感受到最大的不同之处在哪里?
公司具有很强的工程性,而且有数据,比如说有些论文如果是与工业界合作,你可以进行在线测试,包括系统上的 A/B Testing,但在学校不可能让几个博士生去做这个事情。博士生必须在这几年内找到一个题目,直接去做科学的研究。
除了与双界合作外,我了解到您也在北京创办了一个公司,做个性化推荐的业务,那么为何不选择直接创业,学术界对您的吸引力可能在什么地方?
不论是在学校还是在产业界,大家的出发点都是想解决一些技术问题。我的兴趣还是一直在学校,创立公司的目的也是希望通过这样的方式实现技术转化。像计算化广告或是推荐系统,如果没有一个公司作为载体,可能我就不能拿到用户的数据,也不能做在线测试。
我觉得高校对我的吸引力在于解决一些最基础的问题,在企业界可能不太容易能实现这个状态,公司也有产品化的需求。
那么像阿里与高校合作研究星际争霸,实际上是一个比较特殊的情况?因为它并不是直接以产品化为导向的?
是的,阿里做这个事情的确是一个比较特例的情况,而像 DeepMind 这样的情况就更少了。DeepMind 给自己的定位是纯研究机构,但实现的却是商业化的运作。实际上我认为,母公司提供资金,让基础研究机构以商业化模式去管理,做一些比较前沿的研究,它的回报率会更高。我一直想强调的一点是,为什么中国不能出现像 DeepMind、Magic Pony 这样的公司?
如果是 VC 比较急功近利,那可能就做不了,第一年投钱,第二年就想把产品做出来,这对基础研究来说是不现实的。但如果把研究放回高校,高校的机制又存在着不足,也就是「一个萝卜一个坑」。什么意思呢?一个博士生,他要在四年里独立地完成一个项目。当然我们有些机制可以让学生们一起合作,但还是非常零散的状态。不可能在高校里找 10 个最牛的学生去把星际这个问题彻底搞定,只有在工业界中雇 10 个最牛的人去做这个事情,这其中有工程师、有程序员、有系统维护,这样才能产生一个 AlphaGo。
现在国内很多企业也在建研究院,是不是也在想向这种方向靠拢?
对,但他们的研究院都是非常功利性的,都是研究院,但是都不研究。我觉得要解决这个问题可能有两种渠道,一个是大公司突然就觉悟了,要做一个全新的商业化运作的纯研究机构;另一个是创业公司自己带头做基础研究,如果把 AlphaGo 这样的研究做成了,我相信对 VC 的价值也很高。比如星际争霸这个事情,或者说王者荣耀,如果能做到能与一般水平或者水平稍微好点的玩家对抗,那它的价值就非常大了。
后记:汪军教授的微信签名是「with a curious mind」,问他这是不是一个对自己的评价,他说,做学术就是这么回事,需要永远保持一颗好奇心。此外,这句签名更多地也表达了他对生活的一种态度。汪军教授表示,在回学校后打算继续安安静静踏踏实实再做几篇文章。「AI 可能今年火,那明年可能就不火了,那么你是要改行干别的吗?肯定不是,你还得继续往下走。」