雷锋网 AI 科技评论按:The Gradient 在线杂志(thegradient.pub)近期发表的一篇文章指出了一个尴尬的事实:机器学习领域的作者们正在欠下越来越多的「论文债」,而这对整个领域都是有害的。那么,什么是「论文债」?「论文债」是怎么欠下的?我们能做些什么?
对学者们来说,写作、发表论文是学术声誉的第一来源。如果是教授,发表了多少论文决定了你能不能得到终身教职;如果你是学生,发表论文的状况会决定你能不能毕业、什么时候能毕业,甚至毕业以后是去企业比较好还是适合留在学术界。
一篇论文应当是一份详细的手稿、一份操作指南,帮助别的研究者们理解以及重现其中的学术想法。但我们实际看到的论文往往只是讲了故事的一部分,研究者们经常会遗漏一些细节,或者把他们的方法表达得更为理想化,以便让未来的审稿人读得更舒服。除此之外,随着他们做更多实验(包括在后续研究中的)、和别的研究者交流,研究者们对自己的论文的认识也会逐渐发展变化,而这些变化是极少会被记录下来并以文本形式公布的(除非这些变化已经多到了足以再写一篇新论文的程度)。这当然不意味着研究者们有任何的坏心思,只不过是现有的学术发表惯例并不鼓励研究者们把宝贵的时间花在更新已经发表的论文上。
令人欣慰的是,机器学习领域的论文发表惯例已经有了不少变化。arXiv 这样的平台让发表学术观点的门槛更低(即便不是完善的学术论文)、可以免费集中查阅绝大多数学术论文,也让论文的修订更新变得更容易;其它的平台也有不同的补充,rescience.github.io 会发布以往论文的重现,distill.pub 在线期刊可以提供丰富、高度可视化、可交互的科研想法展示。在论文之外,机器学习领域也有许多发布高质量的技术博客、高质量的代码复现的人,这些形式的成果也可以得到认可。
即便有了这些,The Gradient 认为还是不够,他们认为还缺少一种鼓励大家表达对于已经发表的论文的真实想法、展开有价值的讨论的方式。比如 The Gradient 的一位作者 Ryan Lowe 就说,他很愿意发现并承认自己研究工作中的问题和不足,自己经常会和朋友、同事直白地讨论自己以往发表的论文,但是在公开发表的论文中就会收敛很多。可惜的是,许多有卓识的研究者由于种种原因没法来到学术会议现场,没法和引用了他的工作的、在同一个方向上研究的其它研究者们当面展开直白真诚的讨论。
The Gradient 提出了一个有趣的新概念:「论文债」,对,就是「债 debt」。他们给出的简单的核心定义是:论文作者撰写论文时的可用知识,和论文读者能从论文中获得的知识之间的差异,就是「论文债」。一般来说,作者所做的所有试验、作者的直觉判断、作者意识到的局限性这些可以写进论文中,但作者最后并没有写的东西,就成了论文债。在 distill.pub 在线期刊亮相时,Chris Olah 和 Shan Carter 就曾提出一个「科研债 research debt」的概念,用来形容一个门外汉和一个领域专家之间的知识区别。论文债也就是一种特定形式的科研债。
有很多原因都会让论文债越积越多。有时候由于投稿的篇幅限制,研究者不得不省略掉一些直觉的解释和实验;也有时候,研究者会写下模棱两可或者给人误导的话。在《Troubling Trends in Machine Learning Scholarship》(arxiv.org/abs/1807.03341)中,Lipton & Steinhardt 就描写了其中一些状况:许多论文都没能把猜测和解释区分开,对经验积累、模型调节带来的提高避而不谈,以及为了让方法看起来更复杂、更有数学性而增加不必要的方程。
更明目张胆的省略行为也很常见。比如,如果论文作者在其他一些额外的数据集上也做了实验的话,经常发生的事是,只有得到很好的结果的时候他们才会把这个实验写进论文里,即便失败的结果对于其他研究者来说极富价值。类似地,论文作者们给基准线模型选择的超参数很多时候都并不是最优的,但是作者们又并不总会把选择的参数全部详细列出来,所以即便读者们有所质疑也往往找不到直接的证据。
让论文作者们甘愿积累论文债的动机有很大一部分是为了取悦未来的论文审稿人。这也是合乎情理的,评价研究者水平的最重要因素就是他们发表在顶级会议和期刊上的论文数量。所以在撰写论文的时候遮掩方法的弱点、省略不好的结果、用一些迎合标准的写作手法都能让论文在审稿人眼中显得更棒一些、更容易通过同行评议。
除此之外,论文债堆积还有一个致命的原因是时间。如果论文作者们花时间做更多的实验,或者和领域内的其它的研究者聊一聊的话,肯定会对自己的成果有更深的理解。如果新证据新想法比较多,作者们有时候会在 arXiv 上修订更新自己的论文,但更多时候这些新证据新想法就只是烂在作者们自己的肚子里了。毕竟,把这些新内容恰当地融合到原来的论文中需要花不少精力,但是根本说不准做了以后有多少人会注意到,还不如把这些时间精力花在写新的论文、赶新的 deadline 上。
然而,论文债已经成了最浪费整个领域的研究者们的劳动付出的那件事。如今,读一篇论文的过程中就需要仔细辨别作者的哪些语句是技术上站得住脚的。一边读一篇机器学习论文一边在心里琢磨「让我看看他们想要遮掩什么,为了让这个方法显得效果不错你们都偷偷用了哪些技巧」已经越来越常见。对于许多研究者,这种戒备心也是吃了许多苦头以后不得已学到的 —— 领域内出现过很多很棒的点子,但是真的在它们基础上做进一步的挖掘、建设的时候就远没有论文中吹嘘的那么好的效果。如今大家都已经习惯了要带着戒心,领域内有也有那么多的论文欠下论文债而没有要改观的样子,不得不说令人遗憾。
除了「明知故犯」的论文债之外,论文作者们翻下的一些无心之失也会带来不好的影响。浅显点的比如没有对数据集和结果做足够的检验,模型能产出好的指标数字,但是实际的结果表现出固定的偏倚;隐蔽点的比如在雷锋网 AI 科技评论的这篇文章中谈到的,大家虽然都会认真做误差分析,但是不好的开头导致后来者沿袭的误差分析方式其实有很多疏漏。作者们当时写这些论文的时候自然是好心的、不需要有任何愧疚的,后来有了更多了解、经过别人提醒之后,自己的水平提高了,能发现以前的做法存在问题了,还是应该主动去更正,以及影响更多的人避免犯同样的错误。
对于这些状况,肯定也有别的研究者意识到了,但单个人能做的不多。The Gradient 团队就联合多方力量制定了一个小有野心的计划,他们编写发布了 ML Retrospectives(机器学习回顾反思,http://ml-retrospectives.github.io/),一个专门供研究者们对自己以往的研究工作进行反思、补充的平台。在今年的 NeurIPS 2019 中他们也会举办一个 Retrospectives workshop,高质量的论文回顾反思可以在 workshop 中发表。
ML Retrospectives 是一个实验:The Gradient 其实自己也不确定研究者们有多大的动力来给自己的以往的论文写回顾反思,以及最终产出的内容能如何对整个领域起到帮助。对于这些问题,他们也会在刚刚提到的 NeurIPS 2019 的 Retrospectives workshop 中进行讨论。当然,真正重要的是倡导、鼓励研究者们更开放诚实地思考、讨论自己以往的成果,以及和别人分享他们的对于以往论文的新想法。
科学研究很重要,我们通过科学研究了解了越来越多关于这个世界的知识,了解了更多如何做事和思考的方法论。但我们也需要关注科学进展本身,如果具体的研究者们的动机和作为并不能助力领域的科研进步的话,这个领域肯定会出问题。ML Retrospectives 是其中的一个改进状况的尝试,大家都更希望看到的是所有研究者们都可以用更科学、面向发展的态度做更多对整个领域有益的事情。
雷锋网 AI 科技评论部分编译自 https://thegradient.pub/introducing-retrospectives/