相信大家最近一直被 arXiv 争议事件刷屏,相信各位一定已经看遍了吃瓜群众们的各界评论。
首先先和雷锋网 AI 科技评论小编来回顾一下事情的经过:
6 月 8 日,Bar IIan 大学的 Yoav Goldberg 在 medium 上发表了一片名为《An Adversarial Review of「Adversarial Generation of Natural Language」》的文章,实名反对蒙特利尔大学所发表的这篇论文,言辞激动,一开篇就用了一个 f word。
据他所言,这篇文章并不是针对蒙特利尔大学或者这个研究团队,而是他认为这篇论文各个方面都非常糟糕,在界定自己所做的工作上有夸大之嫌,而它所引起的过热讨论和关注实际上与它的名气并不相符。此外,他也驳斥了 arXiv 论文的良莠不齐,在深度学习领域给太多学习者挖了坑。
隔天,Yann LeCun 在 Facebook 上以长文批评了 Yoav Goldberg 的观点,核心观点是,「虽然有插旗占山头的可能性,但我觉得把论文发布在 arXiv 上是件好事。」LeCun 在文中表示,Yoav 的很多观点都是防御性的。
而在 6 月 10 日,Yoav 又对 LeCun 的回复做了回答。在关于 arXiv 的问题上,Yoav 表示,他并不反对人们将论文首发在 arXiv 上,他驳斥的是那些利用这个平台进行过度 PR 及过度解读的、在治学上投机取巧的研究团队。以蒙特利尔大学团队的论文标题为例(他也在首篇博文中提及),采用「自然语言的对抗性生成」这样的标题是非常不严谨的。
而在这一声明发出后,LeCun 补充了一篇文章,指出 Nikos Paragios 也曾经有过类似的防御型看法。LeCun 认为,Yoav 一直表示,在 arXiv 上发表论文有种插旗占山头的霸道,仿佛在其中第一个发表相关性的论文就代表着一切。但研究是任重道远的。「在 arXiv 上发表论文,比起传统的方式要高效得多,但是,它肯定不会取代原有的同行评审方式。诚然,它改变了让论文获得关注的游戏规则,但这并不代表什么。」
而作为深度学习大牛,LeCun 也不忘将 arXiv 和同行评审以机器学习概念进行类比:「这就像是随机梯度和批量梯度之间的不同,前者嘈杂、混乱,但无疑,它更快而且更有效率。」
最后,Yoav 补充了一些自己的观点。首先他依然坚持,这篇论文在很多层面而言非常糟糕,但他想针对的是一个目前普遍存在的现象。其次,研究成果在小的层面有着技术进步,无可厚非,但不需要给自己扣高帽子,精确地陈述(并评估)自己所做的工作,比什么都重要。
arXiv 的建设始于 1991 年,由物理学家保罗 金斯巴格创办,当时主要作为收集物理学论文预印本的网站而存在,后来延展到天文、数学、生物,还有今天的计算机领域。而它对于传统的期刊杂志方式,无疑是一个极大的开放和颠覆。以往学者提交论文需要经历一个非常长的周期,在等待论文发布期间,处于对知识产权的保护,研究者无法及时将研究成果进行开放,这样一来也阻碍了学术成果的落地和进一步研究的步伐。
arXiv 作为一个能第一时间提交最新论文的平台,有效地保护了论文的原创性。由于发布在 arXiv 的论文是公开的,毫无疑问也能够获得更多的关注。
实际上,arXiv 已经成为了不少同学的「每日必刷网站」,此前有学生曾经向雷锋网 AI 科技评论表示,刷 arXiv 已经成为了他的一种习惯,「不管是认真研读感兴趣的论文也好,或是随便看看大家发表了什么也好,arXiv 于我而言就像是一扇了解最新动态的窗口。」
但也正如 LeCun 和 Yoav 在争论中所提及的,arXiv 已经成为了大部分研究者「插旗占地」的方式之一,开放的平台也就意味着良莠不齐的可能性,这也是此次论战发生后不少学者所关注的重点。但不得不说的是,arXiv 对学术会议论文能产生的影响,还真的不怎么大。
蒙特利尔大学校友,DeepMind 研究员 @d.w.-f. 表示,现在 arXiv 对他而言就像是论文版的旧版谷歌 RSS 一样,比起这个,他更倾向于信任(自己选择的公司所在的)同事给他推荐了些什么样的论文。
而俄勒冈大学助理教授 @Daniel Lowd 则吐槽道,深度学习革命果然是颠覆一切啊,以前是双盲评审,现在成了 arXiv+推特刷屏!
而我们需要认清的一点是,在 arXiv 上发表论文,并不等于已经得到了同行的认可,更与学术会议是两码事。这也是南京大学周志华教授在微博中将 arXiv 比喻为「BBS」的原因。
那么,如果一篇论文此前在 arXiv 上得到了莫大的关注(比如蒙特利尔大学的这篇论文)甚至是好评,是否意味着它更有可能在学术会议上得到同行评审的认可?对此,美国圣克拉拉大学运营管理和信息系统陆海兵副教授是这样理解的:
「arXiv 给大家提供了一个方便快捷的平台发布最新研究成果。但是我个人不会觉得它会冲击现有的会议评审机制。毕竟专业文章需要领域里的专家来审阅推荐。至于 reviewer 审稿需不要考虑 arXiv 的文章,我不清楚别人是怎么做的。我审稿的时候一般只会以过去会议和期刊发表的文章当作参考文献。」
而对于会议匿名评审的影响,他认为 arXiv 对于双盲评审的冲击应该也是有限的。「其实双盲评审并不能有效的掩饰作者,如果 reviewer 真的有心,不难查出作者身份,毕竟研究圈子很小,论文的引用很容易暴露作者身份。」
而从评审人转换为论文作者,陆教授也向雷锋网 AI 科技评论回忆起他在 arXiv 上投递论文的心得。他个人曾经和其他学者合作过文章,并发布在 arXiv 平台上,但他这么做的原因也只是为了等待更好的时机,最终目的还是为了将论文投递到期刊上。「文章被拒了好几次,考虑到时间因素,就先放到 arXiv,然后打算把工作做的更详细些,再投期刊。」
可以看出,论文在 arXiv 上的投递,可以理解为只是它走向学术会议/期刊的第一步,而不是最终的结果。诚然,我们不能否定 arXiv 在保护学术原创性、加快研发周期和开拓思维的作用;但与此同时,作为论文的投递者,研究者们更应该珍惜这个开放的平台,以严谨的治学态度面对自己所做的每一篇文章,方能在学术圈树立起良好的声誉。