资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

Google AI:如何破解AI学术研究的赢者诅咒?

作者:camel 编辑:郭奕欣
2018/02/27 23:26

「赢者诅咒」:赢得拍卖品的中标者出价高于其他竞标者,但他很可能对拍卖品估价过高,支付了超过其价值的价格,从而赢得的拍卖品的收益会低于正常收益甚至为负。换句话说,就是当你一心想要赢得竞标时,却偏离了你原本的目的。

雷锋网 AI 科技评论按:当我们为各种测评任务中取得的分数欢欣鼓舞时,可能我们已经受到了「赢者诅咒」。

机器学习领域在过去的十年时间里取得了非常了不起的进步。从机器翻译,到语言理解,到计算机视觉,到自动驾驶,到 AlphaGo,到电子游戏(例如 DOTA)等等。

这一系列的快速进步背后最大的推力可能就是,学术研究领域越来越强调所谓的「win」文化:新发表的方法必须在某个给定的任务或基线上超过之前别的方法。这意味着我们已经把学术社区逐渐变成了一个有着明确判定输赢的场地。

反思一下,科学的目的不是为了胜利,而是为了知识。

因此,当我们不断在各种测评中取得越来越高的分数时,或许是时候该警惕了:我们已经受到「赢者诅咒」。

雷锋网注意到,近期来自 Google AI 的 D. Sculley, Jasper Snoek, Ali Rahimi, Alex Wiltschko 在 OpenReview.net 上提交的一篇文章《Winner's Curse? on Pace, Progress, and Empirical Rigor》[1] 给我们明确指出了这点,作者认为实证严谨(empirical rigor)对于现在的 AI 学术社区变得越来越重要,他们针对当前的问题给出了一些颇具革命性的建议。

Google AI:如何破解AI学术研究的赢者诅咒?

[1]雷锋网注:这篇文章是提交给ICLR 2018的workshop track的。

最近一年的重点案例研究

如果回顾一下过去一年的论文,就会发现一个明显的趋势(许多研究组从不同的角度做出了相同的发现):由于当前快速发展的研究工作大多只是简单的调整参数或者进行消融研究(ablation studies)[2],我们错过了许多可能的改进或深度的见解。下面是过去一年中几个研究组的一些发现:

[2] 注:消融研究,通常是指去除模型或算法的某些“特征”,并查看这会如何影响性能。例如你提出了某个结构,若想确定这个结构是否有利于最终的效果,就要将去掉该结构的网络与加上该结构的网络所得到的结果进行对比。

以上这几例研究说明了一个问题,即如果这些领域采用更高水平的实证严谨,那么那些看似在快速发展的研究可能要比它看起来的样子慢得多。

诱因和现状

从目前的情况来看,诱使机器学习研究急剧增长的原因可能有以下几点:

这些因素是否真的能给 ML 的研究带来真正有用的结果,可能需要历史来告诉我们了。从表面上看,这些因素本来应该促进更加强健的实证工作的,但实际情况却朝着相反的方向走去。

改革建议

久病难医,Ali Rahimi 等人在文中表示:「我们提出几条建议,抛砖引玉,希望以后大家以后多多讨论。」

实证评估标准    在目前的做法上,以下标准应当被鼓励、奖励,并最终成为实证工作中的要求:

共享实验笔记和记录    ML 研究人员大多不会像物理等领域那样把所有的结果记录下来。但作者建议研究人员将有关论文研究期间进行的所有实验的细节和时间都保存在电子文档中,这有助于追踪研究的发现、探索和结论的全过程;同时它也可以抵消多重假设检验和事后解释的问题。

改变论文格式    在一个以创新而著称的领域,我们的主要档案传播媒介仍然以优化纸张印刷为目的,这实在令人惊讶。让我们改变这种纸张格式吧!像 iPython 和 Colaboratory 1 这样的智能笔记本,不仅可以包含代码、数据,还可以包含文字的分析,我们为什么不采用这些来作为一流的出版媒介。

会议中论文页面往往限制了作者展示更完整的实证分析的能力,或者需要花费很多页面才能完成。如果不再让纸张印刷格式限制我们,那么对于评审员来说就可以查看更丰富的内容。为了避免泛滥使用这种自由格式,要求对每个实证结果的额外页面进行一次额外的审查以及适当的审查标准质量要求。

协作和贡献分配    要实现更加完整的实证评估和分析,一般需要大量的工作,可能更多的是一大组合作者共同完成。在目前的这种通过作者先后顺序来评定每个人做出贡献的大小显然是不够的。因此建议在每篇论文中有一个附录,简要概述每位作者的贡献,作为激励这种协作的解决方案之一。

评审和评审人员标准    评审质量是提高一个领域实证严谨性的关键因素。因此建议通过为评审人员创建更好的工具来帮助他们以及领域主席来执行更高要求的评审标准,例如可以直接在文本中添加注释,创建更完整的评审评论。另外还可以为那些由于资金短缺不能参加会议的优秀的评审员提供免费注册作为奖励。

场地选择    目前会议论文的接收率通常与会议场馆的实际大小有关。因此建议通过其他媒介(包括视频和视频会议)来进行更具创造性的工作,这样就可以更为灵活地为那些不是为了「wins」而是专注于其他问题(例如深度元分析)的论文提供了接收机会。

后  记

参加过 NIPS 2017 的人应该都清晰地记得当时人山人海的壮观。Ali Rahimi 当时在 NIPS 演讲中将这称为「large waves」。也许我们真的需要坐下来认真地讨论这些问题了。

可以想见,如果Ali Rahimi等人提出的这套建议真的得以执行,很多 ML 文章都会被拒绝,意味着很多人发不了 papers,毕不了业,找不到工作。但是,人工智能领域的成长或许真的需要壮士断腕了,当然最好是少流一点血。

长按图片保存图片,分享给好友或朋友圈

Google AI:如何破解AI学术研究的赢者诅咒?

扫码查看文章

正在生成分享图...

取消
相关文章