温哥华时间 7 月 31 日早上九点,ACL 2017 正式开幕。在开幕仪式上,包括大会主席在内的多位组委会代表上台发表致辞,并邀请了 ACL 现任主席、瑞典乌普萨拉大学的 Joakim Nivre 做报告。雷锋网 AI 科技评论第一时间发来现场报道。
三个「最」和三个「第一次」
本届 ACL 的规模创下了历史高峰:不论是论文的投递数,或是作为赞助商来到现场的企业数量都是前所未有的。ACL 大会主席先公布了一系列数字,在雷锋网 AI 科技评论看来,可以描述为三个「最」和三个「第一次」。
根据现场公示的信息与大会会刊提供的数据,雷锋网 AI 科技评论结合此前的报道综合总结,第一「最」莫过于今年的 ACL 共收到了 751 篇长文和 567 篇短文的投递,共计 1318 篇。其中:
长文有 195 篇被录用,包括 117 篇口头报告论文和 78 篇 poster,录取率 18%;
短文有 104 篇被录用,包括 34 篇口头报告论文和 73 篇 poster,录取率 25%;
此外,还有 22 篇杰出论文,包括 15 篇长文和 7 篇短文,录取率 1.6%。
因而 ACL 2017 的第二「最」便是,整个会议期间共有 367 个大大小小的报告,长文将展示 14 分钟,短文 12 分钟,包括提问时间。由于要在短短几天内安排如此多的议程,同一时段最多将进行五个演讲,这也是前所未有的。
ACL 的第三「最」则是赞助商的数量也达到了史上最多,达 36 家(外加 NSF),其中不乏中国厂商,包括 BAT、搜狗搜索、华为、CVTE、今日头条等多家企业。根据雷锋网在现场的了解,包括腾讯、阿里、百度在内的一些赞助厂商在这次会议上发表了论文,而也有一些企业抱着学习的心态来到现场,并比较含蓄地表达了自己的招人需求。与 CVPR 激烈争夺人才、线下活动多如牛毛的情况不同,ACL 的线下活动相对较少,以会场内当面的交流和沟通为主。
由于展位位于一楼大厅的茶歇处,因此参会者在休息时段也将各个展位围得水泄不通。
而至于三个「第一次」,一个是昨天雷锋网提及的 WiNLP,这个关注女性研究群体的 workshop 是第一次举办;另一个则是「KiddleCorp」,便于已为人父母的研究者们也能带着小孩来参会。在会场的三楼,不仅有专门的哺乳室,还有专门供 12 岁以下的小朋友玩耍的游戏间。而除了会场的贴心准备外,还会有增加亲子互动的水族馆参观环节,这种更加人性化的细节更加增进了研究者对 ACL 的好感。
另一个「第一次」则是,本次活动首次增设了「PC Blog」这一环节,组委会的成员们在筹办会议期间,在 ACL 官网的博客上记录下了从论文投递到论文评审的点点滴滴,共发布 36 篇。
比如去年年底的《LAST CALL FOR AREA CHAIRS—A CALL FOR DIVERSITY!》就是其中一篇经典分享,在本次开幕式上,ACL 2017 程序委员会主席、新加坡国立大学的 Min-Yen Kan 教授再次针对区域主席的提名数据做了分享。从被提名成员的来源、性别、领域、所在机构及职称上,我们可以从图表中看出一些有意思的地方。
比如,自荐的比重达到 68%,也有31%是他人推荐;
男性依然占绝大比重,占比 78.4 %;女性只占 21.6%;
来自美国的研究者占据了提名池的半壁江山,占比约 57%,而欧洲则以 32% 的百分比位列其后,可见两地的成员比重占据主导地位;而亚洲及泛太平洋地区则与非洲和中东比重一致,均约为 5%。
此外,有 83.8 % 的被提名者来自学术界,而产业界则占比 16.2%。
高级研究员的比重则达到了 59.5%。
接下来,另一位 ACL 2017 程序委员会主席、MIT 教授 Regina Barzilay 又给在场的观众们分享了论文投递的一些注意事项。
比如,她提及有 10% 的论文没有经过评审就直接被拒,常见的原因包括,长度不符合要求、论文领域不符合 ACL 的调性、字体问题、匿名投递等。她建议,在提交论文之前可以采用在线格式检查器进行最后核实,避免与心仪的会议失之交臂。
与此同时,会议组织者组重要的任务是合理分配论文给对应的审稿人,审稿质量也影响者会议的水准和研究领域的方向。由于今年的投递数量过多,Barzilay 教授也坦诚在评审环节上存在诸多挑战,因此组委会采用了 Toronto Paper Matching System(TPMS),将所有投递的论文进行合理分配,并且创建了一个实时更新的评审数据库。
关于 TPMS 的详细介绍可参考:https://mila.umontreal.ca/en/publication/the-toronto-paper-matching-system-an-automated-paper-reviewer-assignment-system/
在评审过程中,组委会采取了「期刊式」(journal-like)的评审方法,即尽可能让每位区域主席经手尽可能少的论文,并缩短论文的初审时间,但增加争议论文的讨论时间。
在组委会的努力下,有 78% 的论文基于首次评审的结果被录用。而有争议的论文在经过二度评审后,增加和降低的分数分别为 3.14 和 3.4。
Barzilay 教授根据本次的评审结果,总结出两个结论,
一个是,初审结果很大程度上决定了论文的去留;
另一个是,二度讨论将对 22% 的论文进行再次研究。
她认为,应该将更多的时间留给有争议的论文,而不是两头(很快能确定是否录用)的论文上。
非常有意思的是,Barzilay 教授也提及了论文评语常见的一些关键词(如下图所示),不难看出,将论文写得清晰明白,论据翔实,并且有独到的观点,是论文筛选的重要标准。(敲黑板!论文下一次能不能中,就看同学们能不能记住这三点了!)
最后,Barzilay 教授动情地回忆了她 20 年前第一次参加 ACL 1997 时的经历,她表示,在参加完那次会议后,她确定了接下来要走的路——继续在计算机语言学和自然语言处理领域深耕,并且 20 年如一日,一直到今天。以此,她勉励在座的同学们在大会期间也能有更多的思考,或许这些启示甚至能影响自己未来的职业生涯。
在开幕式的最后环节,ACL 2017 主席 Joakim Nivre 做了大会主题报告,他以生动幽默的语言描述了 ACL 上三个值得高度关注的问题。
在会上,Nivre 教授引用了两段话来阐述公平性和多样性的重要程度。
不论是接受或是拒绝进入科学的大门,这并不取决于对方的个人或社会属性……种族,民族,宗教,阶级和个人素质等都无关紧要。——Robert K. Merton
科学家,心理学家,社会学家、经济学家和人口学家们数十年的研究表明,社会多样化的群体(即具有不同人种、民族、性别和性取向的种族)比同类群体更具创新性。——Katherine W. Phillips 在 2014 年 10 月的《科学美国人》上所发表的文章《多样性如何让我们变得更加聪明》
ACL 全称为国际计算机语言学协会(Association for Computational Linguistics),在 ACL Fellow 和组委会成员的甄选上,协会采取了全新的标准,以避免可能存在的偏见,并且增加了人群的多样性。此外在议程的设置上,正像前文雷锋网 AI 科技评论所提及的 KiddleCorp 以及 WiNLP 一样,都是凸显公平性与多样性的活动。
Publishing and Reviewing——出版与评审
ACL 协会为了促进公平性,在论文的筛选上采用的是双盲同行评审的模式。但由于类似 arXiv 这样的平台出现,实际上双盲评审也不总是能够奏效。例如在 EMNLP 2017 所做的一项研究发现,在接受调查的 701 位评审中,有 30% 的受访者表示他们能够正确判断出一篇论文的作者是谁(很有可能在投递会议前,这篇论文就在学术圈刷屏了)。
这一讨论在官网的 PC Blog 上也有提及,详见:https://chairs-blog.acl2017.org/2017/03/02/arxiv-and-double-blind-reviewing-revisited/
在演讲中,Nivre 教授也总结了同行评审所带来的三个问题及对应的解决方案:
首先,不断增加的论文投递数让评审人不堪重负,可能会对论文评审质量造成影响;
其次,随着 arXiv 的出现,会议不再成为讨论最新想法的平台,时效性变差;
再者,期刊相比起会议而言权威性更加高,那么期刊是否依然是科学领域的掌门者?
因此,组委会希望从以下三点入手:
通过预审环节减轻评审人的负担(并提升质量);
在长文评审上,设置滚动的截止时间,采取期刊式的评审模式;
短文及 poster 可以提交摘要版本。
arXiv 平台具有开放性和同行评审的特点,那么对于论文作者而言,这一平台给他们带来了多大的便利?针对这一问题,ACL 进行了一次预印论文与评审的调查。
对参与调查的 623 名受访者中,研究者发现有 22% 的论文作者会讲自己的论文先提交在 arXiv 上;而且有 27% 的受访者(非常)经常引用 arXiv 平台上的论文。
调查的结论如下:
对于双盲评审,持积极态度居多;
而对于一刀切禁止预印版的发布,则持谨慎的态度;
提交预印版时提供暂时匿名的选择是个很不错的主意;
在论文中引用预印版论文则需要规范的流程;
评审质量是大家最为重视的东西,而这也对组委会提出了新的长期和短期的要求。
Good Science——好的科学
Nivre 教授这里所谓的「Good」,他用两个关键词总结它所表达的含义。
一个是可复制性(replicability),也就是说,实验的复现性要强,能够通过同样的测量手段实现同样的效果,具备基准和公平比较的条件(fast science);
另一个是复现性(reproducibility),即能够在相似实验上得到相似的结果,可以构建有效的假说,并且经得起反复测试和比较分析(slow science)。
最后,Nivre 教授也勉励大家,前途是光明的,「Keep up and good work!」
精彩纷呈又信息量满满的开幕式就此落下帷幕,在纵览 ACL 2017 大会情况外,在座的老师和同学们也更好地了解了国际计算机语言协会所作出的努力和思考。接下来的几天,将会有超过 300 个报告展示陆续进行,更多精彩内容敬请关注雷锋网 AI 科技评论。