AI会议的论文评审惯例需要重新设计吗？顶会组织者们有一些想法

2019/08/16 21:35

雷锋网 AI 科技评论按：学术论文，是科研人员记录研究成果、与同行交流讨论的最重要的载体；论文能在期刊、会议上发表，也就表明这项成果得到了同行的认可。

不过对于对计算机科学领域的科研人员们来说，发表论文、尤其是在会议上发表论文的惯例面临着重大挑战。人工智能这一计算机科学等学科的衍生领域这几年呈爆发式的增长，各个相关学术会议的参会人数、论文投稿数量也指数级地增长。

正如人类设计的计算系统会遇到可拓展性（scalability）问题一样，学术会议论文投稿、评审的传统模式在处理如今大幅增长的投稿论文数量时也带来了许多令人不满的结果，比如仅仅是按时审完所有的投稿论文就是一大挑战，审稿人们也需要耗费越来越多的精力在审稿过程中；作者们越来越普遍地报怨会议中的论文评审随机性增加、不公正，但他们却又不得不想尽办法让自己的论文被某个会议接收，有人甚至会使用一些投机取巧的办法。

在 IJCAI 2019 开幕之前、公布论文接收结果之时，许多论文作者就表达了自己对结果的不满，似乎这届 IJCAI 的论文审稿过程中出现了不少的问题。IJCAI 2019 的 PC （program chair，程序主席）Sarit Kraus 当时很快就给作者们发送了一封邮件，做了一些解释，也给出了一些他的个人观点。

AI会议的论文评审惯例需要重新设计吗？顶会组织者们有一些想法

当然了，这并不能真正地解决问题，所以曾任 IJCAI 2017 程序主席的 Carles Sierra 在 IJCAI 2019 会议中组织了一个环节，邀请了多位资深、且（曾经）担任顶会主席的学者参加圆桌讨论，系统、全面地重新思考如何认识以及应对当前顶会中暴露出的问题。

AI会议的论文评审惯例需要重新设计吗？顶会组织者们有一些想法

参加讨论的学者们为（从左到右）：南京大学教授周志华，将担任 IJCAI 2021 程序主席；巴尔-伊兰大学教授 Sarit Kraus，本届 IJCAI 2019 程序主席；帕多瓦大学教授，Francesca Rossi 曾任 IJCAI 2013 程序主席；蒙彼利埃大学教授 Christian Bessiere，将担任 IJCAI 2020 程序主席；得克萨斯大学奥斯汀分校教授 Peter Stone，曾任 AAAI 2014 程序主席。

在圆桌讨论中，学者们讨论到了很多问题，也提出了很多深入的见解和新颖的解决方法。当然了，这些措施很可能没法很快就形成领域内的共识并执行下去，但充分的讨论、好的点子开始形成，是解决一切问题的开始。

雷锋网 AI 科技评论记者全程聆听了圆桌讨论内容，并把一些有价值的讨论内容摘录如下。

议题一：论文评审委员会如何组织、如何选人、如何应对大量论文

如今各个 AI 会议都很容易出现审稿人不足的状况，所以几位学者都表示了对同一个想法的支持：让投稿论文的作者也承担一些审稿工作（具体方式还有待讨论，一个比较简单的方式是今年投稿的作者需要明年参与审稿）。首先这直接增加了可以参与审稿的人数；其次，从个人和集体的关系来看，提交论文让别人审是论文作者享受了来自整个学术社区的服务，那么他也应当为学术社区做出一些服务，比如审别人的论文。

另外大家也提到了反复投稿的问题。论文作者们如今的惯例是，投某一个会议不中的论文，就在出结果以后投到紧接着的下一个同类型的会议，期待着新的审稿人给它更好的评价。这种做法当然会造成严重的资源浪费，而且还会培养出作者的惰性，不那么积极地按照审稿意见更新自己的论文。多位学者都提到应该设立一些措施处理这种问题，简单的做法比如针对同一篇论文的审稿意见可以在不同的会议之间通用，这样时间顺序靠后的会议就不必重新审这篇论文。

其它观点还有

周志华：为了处理大量论文，论文审稿委员会需要设置多级结构，比如 SAC/AC/SPC/PC，但这样做也会减少直接审稿的PC 的人数；如今常用的 SPC 提名 PC 的做法也遇到了困难，多位不同的 SPC 分别提名 PC 名单，但其实很多名字都会重复，总的提名名单里人还是不多；以及资深学者很忙，经常同时为多个会议审稿，同时还有自己繁重的工作，而会议的投稿量越来越大，导致为会议找到足够的资深审稿人越来越困难，几乎成为不可能的任务.
Sarit Kraus：很多审稿人报怨时间安排太满，不同会议的审稿之间可能有冲突，可以试试 PC、SPC、AC 等等每年只服务一个会，可以更少人、更投入地完成工作。
Christian Bessiere：快速发展的领域里常见的问题就是经验学识较浅的学者多、资深的学者少。那么可以在审稿过程中根据资历安排不同的任务或者做法，比如需要多位经验学识较浅的学者共同决定一篇论文的质量，但资深学者可以独立决定一篇文章。

议题二：如何改进评审过程

应对大量的论文投稿，大家都提到需要设计快速淘汰机制，快速筛掉质量不高的一部分论文当然就可以减少工作量；更少的工作量，就可以专注地评审论文，提高评审质量。可以在现有流程前增加一个快速筛论文环节，比如：根据摘要筛论文；要求提交短视频或者论文演讲的 PPT，根据它们筛论文；每篇论文只看 20 秒。但毕竟还是增加了额外的工作量。

Christian Bessiere 提到可以考虑采用全新的审稿和发表机制，比如采取每月发表的方式（而不是如今的集中在会议发表），对应地，作者们就可以在全年中的任意时间投稿，然后论文评审和录用结果公布都是每月进行。这种方式可以克服很多目前会议集中审稿带来的问题（包括上面提高的反复投稿也可以在这种机制下得到遏制）。（雷锋网 AI 科技评论注：ACL 2019 上也有一个讨论论文评审方式的圆桌，也提到了这种方式）

周志华教授还谈了一些他对论文评审过程的有趣的观察：不同的论文分配机制有各自的问题，审稿人的专业性和想阅读论文的兴趣常常难以兼顾；由于稿件量很大，审稿人拿到的“一批文章”不具有采样代表性，然而审稿人通常会在这一批文章中做“比较”。如果你的文章正好落在一个拿到一批相对较好的文章的审稿人手里，就更容易被拒稿；如果落在一个拿到一批相对差的文章的审稿人手里，就更容易被接受。这就造成了“运气”很重要，也间接导致不少作者甚至不做修改就投稿去碰运气。他提议可以考虑设置一些投稿成本，比如会议收取 10 美元投稿费，论文被录用就用来抵扣注册费，没被接收就贡献作为学生参会的旅行资助。

议题三：如何确保审稿质量

在这里，确保评审质量是指希望审稿人可以认真负责地审稿。多位学者都谈到可以考虑使用积分（token）制度，提出了高质量评审意见的审稿人、乃至被评为优秀审稿人的学者可以获得一些积分，然后各个会议就可以只允许有积分的人投稿多篇论文（第一篇投稿可以不需要积分）。周志华提出这种机制设计需要另外耗费一批资深专家来评价评审意见，因为不能简单地用文字长短来判断评审意见是否专业到位，也不能完全依赖论文作者评价自己论文收到的审稿意见，毕竟作者们天然地对审稿人抱有敌意；Sarit Kraus 认为审稿意见在不同会议间通用能鼓励大家更仔细评审；而 Peter Stone 则提出这种机制可能和双盲评审是有冲突的。

议题四：如何制止论文投稿与评审过程中的不当行为

我们对“不当行为”了解并不多，相信有些读者也是这样。在讨论中，学者们提到的不当行为包括：

许多论文会涉及利益冲突，比如审稿人会给来自自己同事的论文打更高的分数，但给不熟悉的、乃至对于自己看出来来自竞争对手的论文打更低的分数；
在论文评审过程中，审稿人之间故意泄露作者身份；
论文作者在投稿时为了提高中的概率，会把相同的研究写成几篇略有区别的论文分别投稿；
在评审过程中，有些作者收到了审稿意见，但是不愿意修改自己的论文，只想尽快投到下一个会议

针对利益冲突，周志华提出我们需要一定的利益冲突检测机制，在论文分配过程中进行调整。

Sarit Kraus 说道，投稿中的不当行为其实是我们自己培养出的怪物：根本原因是年青学者有很大的压力发表论文，如今许许多多的东西都和发表的论文数量挂钩，所以他们也只能想尽办法让自己的论文能够录用。

Peter Stone 则提到了对整件事的“道”的想法：也许我们可以指定一些规则，规定了哪些事是不可以做的，但是我们人类总是能会想办法找到漏洞、绕过规则。改善这件事，我们需要更多鼓励好的行为、让好的行为成为大家效仿的样板。

其它

AI会议的论文评审惯例需要重新设计吗？顶会组织者们有一些想法

实际上，整个圆桌讨论中主持人 Carles Sierra 都希望听众们也参与到讨论中来，他把几个话题都发表在了网络留言板上，听众们可以自由地在其中写下自己的意见。在前面几个问题的讨论结束后，现场听众也提出了一些问题，几位圆桌嘉宾们也给出了有价值的回答。

既然会议式论文投稿有这么多问题，为什么我们还要举办会议，投期刊不好吗

周志华：期刊的论文评审过程确实高质量，但是计算机科学界注重会议的风气已是既定事实，改变这个风气需要很长的时间。计算机学科并没有像物理的PRL、化学的JACS那样整个学科都能投稿的“共同期刊”，甚至仅对人工智能来说也没有各个子领域都能投稿的共同期刊。
Christian Bessiere：会议其实很有意义，是拓展人脉、和研究同一个课题的学者当面深入讨论的非常好的机会
Peter Stone：我们有 arXiv、会议、期刊三种不同的发表途径，arXiv 最快、开放性最高，期刊则最慢、可以期待论文质量也最高。三者同时存在是很好的互相补充

先准备论文演讲，投稿时根据论文演讲PPT或者视频决定是否录用论文，这个主意好吗

Sarit Kraus：“审视频再决定是否要论文”是个很好的点子
Francesca Rossi：也许可以采用，不过需要注意，不同会议对好的演讲的要求有所不同，综合性会议需要让其他领域的研究者也能听得懂，而某个领域的专门会议就需要更深入细致的讲解
Peter Stone：AAAI2019 已经尝试了先决定论文是否接收，然后让作者提交 PPT 后决定这篇论文成为海报论文还是口头报告论文。这虽然增长了审稿流程，但是能鼓励大家更好地准备论文演讲（现在的很多论文演讲就是站在台上低头念稿）

关于双盲评审和 OpenReview 间的取舍

周志华：OpenReview不应该泄露审稿人身份，否则审稿人会感觉压力太大而不接受审稿邀请。但匿名又会遭遇其他问题，例如已经出现了有论文作者邀请很多朋友撰写正面意见导致正式审稿人难免受到诱导。

结语：面对这一快速增长的领域里出现的挑战和问题，许多学者都主动开始探寻背后更深层次的原因，并讨论解决方案。有的方案也许是“推翻重来”式的，比如改成月度的评审和发表，但这也更体现了计算机科学家们探究本质、勇于创新的品质。相信领域内的风气、惯例可以和这个领域一起不断前进、成长。

雷锋网 AI 科技评论报道。文中周志华老师的发言已经过周老师本人审阅订正。