谷歌PhD奖研金获得者徐海峰：“幸运”的算法博弈论之路

作者：奕欣

2017/04/23 08:54

雷锋网 AI 科技评论按：2017 年的谷歌博士生奖研金（ Google PhD Fellowship）北美、欧洲、中东地区日前评选名单出炉，这个从 2009 年成立的项目旨在表彰在计算机科学领域表现优异的博士生。日前，雷锋网 AI 科技评论与七名获此殊荣的华人学生之一、南加利福尼亚大学博士生徐海峰进行了交流。

徐海峰，2012 年毕业于中国科学技术大学少年班学院（华罗庚班），在加拿大滑铁卢大学进行计算数学的研究后，于 2013 年赴美国南加利福尼亚大学攻读博士学位，师从 Shaddin Dughmi 和 Milind Tambe，主要研究领域为算法博弈论、信息经济及算法设计与分析。

谷歌PhD奖研金获得者徐海峰：“幸运”的算法博弈论之路

当得知自己获得谷歌博士生奖研金之后，徐海峰在朋友圈分享了这一好消息：「Made my day[大哭]」。

谷歌PhD奖研金获得者徐海峰：“幸运”的算法博弈论之路

徐海峰获得谷歌博士生奖研金所属的类别为「算法、优化及市场」，同时获得这一类别奖学金的另外两位获奖者分别来自 UC 伯克利大学及哈佛大学。在获此殊荣的背后，是严格的评审过程与激烈的竞争流程。奖研金需要博士生导师向学校推荐，而每个学校只能在其中选出两名博士生，并代表候选人向谷歌提交申请，材料包括候选人的博士论文提案、简历和三封推荐信。徐海峰收到的邮件中显示，谷歌成立了一个由研究科学家组成的专家评审团进行评估。

2017 年的谷歌博士生奖研金在北美、欧洲、中东地区评选出 33 位优秀的博士生，而作为七位华人获奖学生之一的徐海峰，虽然调侃着「总算可以给老板省点钱」，但他也觉得自己非常幸运。「特别感谢所有帮助过我的人，尤其是我的导师。」

而徐海峰为何会与算法博弈论结缘，就要追溯到他的本科经历了。在中国科学技术大学少年班学院（华罗庚班）就读数学方向的徐海峰，于大四期间在微软亚洲研究院刘铁岩博士的研究小组里实习。在高斌老师的指导下，他第一次接触到算法博弈论，并且被它深深吸引。「那时的我觉得这是一个完美地结合了数学，计算机和经济学，同时具备理论和实际应用价值的领域，正是我想做的东西。」

在积累了一年计算数学的基础后，徐海峰得以在心仪的领域攻读博士。在回顾这段历程时，他也对刘铁岩老师与高斌老师，以及所有研究人员表达了感激之情。

徐海峰的博士课题是从计算角度研究信息的战略作用，是算法博弈论近年刚兴起的一个热门研究方向。目前，徐海峰除了专注于此类问题的理论基础研究，也在导师 Milind Tambe 领导的 Teamcore 小组进行偏应用型的科研工作，此前接受雷锋网采访的南洋理工大学的安波博士也同为这一小组的成员。从官网可以了解到，这一小组的科研主题是用人工智能做有益于社会的事情（AI for Social Good）。徐海峰向雷锋网介绍道，团队成员虽然背景不尽相同，涵盖数学、物理、经济学、软件工程等专业，但他认为不同学科思维模式的交流能够帮助各自的研究。「组里已经实现的应用包括优化美国联邦空警的战略部署，优化美国海军警卫队的巡逻路线以及设计马来西亚自然保护区护林人员的巡逻路线等等。」

近年来，对信息在博弈中的战略作用的研究获得了很多著名经济学家和计算机科学家的关注，比如 2014 年获得卡拉克奖章的斯坦福大学经济学教授 Matthew Gentzkow 近年来发表了数篇相关论文（雷锋网按：每两年颁发一次的卡拉克奖授予 40 岁以下为经济思想和理论做出最重要贡献的美国经济学家，大部分得主获得该奖之后都获得了诺贝尔经济学奖，因此也有着「小诺贝尔经济学奖」的美誉）。而对于互联网巨头而言，信息的战略意义也是一个值得关注的问题。

像 Facebook、谷歌这样的大公司，虽然在大数据时代的驱动下拥有很多信息，但如何战略性地利用这些信息实现收益最大化，就涉及到公司与同行之间以及与客户（例如广告商）之间的博弈。「很多时候最优的信息策略需要计算出来，所以需要人们从计算角度研究信息的战略作用。举个例子，谷歌对每一个互联网用户的描述有上千个特征，向广告商提供其中的哪些特征能使收益最大化？这里可供选择的特征组合超过 2¹⁰⁰⁰种，比人体的细胞还要多很多，要从如此多的选择中选出最优的那一个，只能求助于优化算法。」徐海峰告诉雷锋网，他去年在谷歌实习之时，主要研究的课题就是谷歌与广告商之间的博弈。

但在设计算法的时候，徐海峰提及存在两个主要的难点。

首先是系统的分析难度大。在信息不对称的情况下，连博弈参与者的行为都难以分析，更不要说计算基于其行为的最优信息策略了。

其次是不对称信息对博弈结果存在影响。不同博弈参与者本身各自拥有不同的信息，信息策略设计者还需要考虑参与者自身拥有的信息对博弈的影响。

博弈论的算法设计与研究都是基于完全理性参与者的假设，但实际上很少有完全理性的个体。这样一来，算法博弈论是否会沦为「空中楼阁」的纸上谈兵呢？徐海峰表示，这一问题确实存在，模型有时候不能完全描述实际情况。而为了弥补这一鸿沟，可以有两种解决方式，「一是对人的理性程度进行建模。另一种办法是做鲁棒优化，使结果适合不同理性程度的参与者。」

实际上，博弈论的决策权衡与机器学习最终面临现实问题的情况非常类似，就像前面所说的，博弈参与者要实现「绝对理性」的可能性极小，加上复杂多变的现实状况，可能很难直接用公式来描述。那么这样一来，一个顺理成章的做法就是用机器学习模型来刻画博弈参与者的行为，「这样不同的参与者就可以被看成是不同的机器学习模型，博弈变成了机器学习模型之间的博弈。如果可以对谈判人的衡量标准进行量化，那么用机器人代替人谈判是完全有可能的，在未来或许也能诞生自动商业谈判、自动公司决策等很多新的行业。」

反过来，博弈论也影响了机器学习模型的设计，比如生成式模型（GANs）就是基于零和博弈而产生的。生成器模型希望通过制造以假乱真的内容来「骗」过判别器，而判别器也需要不断提升自己的判断能力，以甄别伪造图像和真实图像。

徐海峰透露，目前微软亚洲研究院刘铁岩博士的小组有做关于博弈论和机器学习的结合研究，采用机器学习来学习广告商的行为，然后基于学出来的模型进行最优机制设计。而 Teamcore 组里也有相关的研究工作，主要工作是在安全博弈中用机器学习模型来描述对手的策略，然后采用博弈论来进行决策。

在算法博弈论逐步成为一个新兴研究领域的同时，在企业与高校分别都做过研究的徐海峰对机器学习的热潮也颇有感触。「在企业做研究的一个优势是能直接看到有实际应用价值的问题，而在学校常常需要自己去想出一个有价值的课题。学校的一个优势在于可以做一些周期更长的研究，而企业出于多方面的考虑（比如时间，经济成本）往往需要即时可行的方案。」

而作为仍在学界做研究的学生，徐海峰觉得学术圈与时尚圈很相似，「有很多人赶时髦，也有很多人坚持自己的风格，」他平时也会关注学界的热点课题，认为这样对自己的研究也会有启发。但不论如何，「我觉得做自己喜欢的有价值的课题就好。」

正是抱着解决问题的心态去做研究，徐海峰的论文在去年获得了 AAMAS 的最佳学生作品奖；而他关于安全博弈的算法设计论文也入选了 EC 2016，并在 SecMas Workshop 获得最佳论文。

但当谈起获奖的心得与经验时，徐海峰非常谦虚地表示，这是一件「仁者见仁智者见智」的事，「我觉得最佳论文是可遇而不可求的，很难说有一个标准。」他也提及导师对他的教诲，「导师告诉我要试着去解决最基本的问题，对问题提供最自然最完整的解决方案，至于结果，只能留给别人评判了。」

而或许这样的研究理念，让徐海峰获得谷歌博士生奖研金成为了情理之中的事，「能够研究自己喜欢的课题并得到认可，对我来说，是很好的鼓励。」他也让我们懂得，成功之神的垂青绝非偶然，更多的是谨慎、谦虚的努力。雷锋网也将持续关注徐海峰的动态，见证他在算法博弈论研究上的发光发热。