科学出版的世界是一片雨林:思想争夺阳光/注意力;有些人胜出并变得更高,而其他人则被遗忘。
雷锋网AI科技评论按:在昨天ACL 2020公布了最新的投稿数量:3429篇。这也是所有ACL旗下会议首次接收论文数量破 3000篇。
这引起了笔者的好奇,历届 ACL 都接收了多少文章呢?当前做NLP的研究人员数量在什么量级呢?目前最热的研究领域是什么呢?
笔者在搜索相关资料的时候,无意间发现就在前不久已经有人做了更为详细的调查和分析,
这是位匿名者。
研究内容发表在medium上,账户也是新注册的。笔者顺藤摸瓜,找到了他的调查研究论文《The State of NLP Literature: A Diachronic Analysis of the ACL Anthology》,论文内容丰富多样,调查了ACL Anthology(AA)相关的所有论文,范围从1965年到2018年。
在论文首页底部他也写了,匿名是因为这项工作目前还没有正式发表。
且先不追究这位作者是谁,雷锋网从报告及他的博客中撷取部分内容,来了解 NLP 领域 50多年来的发展态势。共有八问——
1、NLP领域每年发多少论文?
2、有多少人在做 NLP 研究?
3、哪个会议/期刊的论文最多?
4、NLP领域,女性喜欢做什么研究?
5、NLP领域,年轻人真的越来越多了吗?
6、对哪种语言的研究最多?
7、哪个领域最热?
8、谁的影响力最大?
截至2019年6月,AA拥有约50,000个条目,但其中包括一些并非真正的研究出版物的条目(例如,前言、序言、目录等),将这些舍弃后,还剩44,896篇文章。上图中显示了从1965年到2018年期间,每年发表的论文数量。从图中可以看出:1)1990年之后,NLP的研究开始突飞猛进,特别是在2000年之后,AA文章数量开始破千;2)隔年出版的影响在图中可以清晰看到,特别是1998年以来,类似LREC、COLING这样的会议。
除了隔年出版的会议影响外,我们可以看出一个明显的趋势,即从事NLP研究的人数在不断增长。
一个进一步的有趣的问题是,发表论文的人到底有多活跃呢?这很难确切回答,但我们可以将一段时间里的人数累加起来看,例如
在2017年和2018年(至少2年)发表了至少一篇论文的人大约为12k(精确来讲是11957);
在2015年至2018年(至少4年)发表了至少一篇论文的人大约是17.5k(精确为17457)。
当然是各种 workshop 了!
这张图展示的是不同会议或期刊的收录论文情况。
从中可以看出,除了各种workshop论文外,LREC已经成为NLP会议论文的最大单一来源(尽管LREC是一个相对较新的会议,每两年召开一次,但它的接受率往往很高,约60%)。其次则是主会ACL/4839,COLING/3142,NAACL/1479……
NLP领域和其他领域一样,并不会记录作者的个人信息,例如性别、年龄、语言等。但这并不代表我们没有办法研究性别分布——作者的名字往往会蕴含着性别信息。根据这个信息,这位匿名作者利用美国社会保障局发布的新生儿姓名和性别数据库进行匹配识别。
(作者注:由于中文名字的拼音与性别识别的关联较小,因此中文作者的性别较难识别。)
1)女性发表的论文占多大比例?
下面这幅图是女性作为第一作者在历年论文中所占比例
经过统计,女性作为第一作者发表论文数量约26637篇,大约占总论文数量的30.3%。从时间线上来看,从1980年至今,女性第一作者论文比例总体来说变化不大,但近年来却有稍微的下降趋势。
尽管30%的比例,相较于计算机科学的其他子领域已经比较高了,但离男女势均力敌还比较遥远。
2)女性喜欢做什么研究?
作者还做了一个有意思的统计,依据关键词来看女性第一作者的分布。从图中可以看出,女性的工作在discourse、annotation、study、corpus等领域所占比例较多,而例如parsing、dependency、model等则相对较少。
如果能去调查NLP研究人员的实际年龄分布,当然是一件有趣的事情。但很遗憾,目前没有这样的信息。于是这位匿名作者另辟蹊径,提出了:NLP学术年龄。如果一位研究人员是第一年在AA上发表,那么这个研究人员的NLP学术年龄是 1 ;如果是在2001年发表第一篇AA论文,并且在2018年发表了最新的AA论文,那么他的学术年龄是18。
首先来看NLP研究人员的在每一年的平均学术年龄分布——
从上图看出:
1)2018年的平均学术年龄为5.41年;
2)NLP研究也在逐渐走向“老龄化”;
3)直到 2016、2017年,研究人员的平均学术年龄在不断增长,但随后却开始下降了,这个可以从下图中看得更加清楚一点——
作者统计了每年学术年龄的中位数,1965年至1990年大部分时间的平均年龄为1岁,1991年至2006年大部分时间的平均年龄为2岁,2007年至2015年大部分时间的平均年龄为3岁,此后又回到2岁。这大概是 NLP 领域的“返老还童”吧!
我们还可以从另一个角度来看,
作者统计了每年首次发表论文的作者比例,在1965年-1985年期间,这个比例逐渐下降;随后到2005年基本稳定在40%-50%之间;然后2005年到2015年则下降到40%上下。这也说明了从1985年之后,NLP社区已经趋于成熟稳定。不过我们有趣的是,从2016年之后,这个比例又开始逐渐上升了。(注:这个比例明显会受到奇偶年的影响)
再详细一点,我们来看 2011 - 2018年,不同学术年龄之间的比例:
其中2018年首次发表论文的作者占到44.93%,而学术年龄不到5年的作者比例占到65%。事实上,该数字自1965年以来一直在稳步下降,在1990年代为60%至70%,2000年代初上升到70%至72%,然后再次下降,直到2010年达到最低值(约60%),并再次稳定上升,直到2018年(65%)。
因此,如果不是去回顾历史的话,我们常常会感觉最近的会议上有大量新人涌入,虽然这是事实,但也是错觉。事实是,现在(2018年),NLP领域的平均学术年龄要比历史上许多时候都要高,年龄大的(因此也是经验丰富的)人所占的比例要更多。
正如维特根斯坦所说:“我的语言将限制我的世界”,对于一个语言群体也是如此。能否将其所使用的自然语言融入到自动系统(例如计算机)中,以及融入程度如何,是决定使用该语言的人群在网络世界中影响力的关键因素。
我们知道,当前的NLP研究主要是针对英语/英语数据集。原因很多,这里不再赘述;这种现象就会造成一个现象,即当研究课题是非英文语言时,往往会在文章标题中显示出语言的名字。
作者据此观察,统计了如下的表格,共有122种语言:
图中字体较小,但大致是颜色越深,标题中出现的频率越高。从中可以看出中文的研究是所有非英语中频率最高的,且远远高于其他语言(例如法语、日语等)。
注意,这里英语的频率并不是第一,原因是大多针对英语的研究并不会在标题中表示。现在社区中有越来越多的人意识到这是不正确的,这对其他语言是不公平的,因此有人建议应当在所有研究的标题和数据集名称中注明所研究的语言。
从1965年至今,NLP领域的研究热点是怎么变化的呢?这是一个有意思的问题。
由于AA文章往往不要求作者提交关键词,因此要想统计文章的研究方向,最便捷的一种方式就是——从标题中提取关键词。
这里作者做了假设,认为标题内容是和文章研究主题一致的。
Sneha Kulkarni曾表示:“一个好的研究论文标题,应当满足三点,1)用尽可能少的词概括论文的内容;2)吸引到读者的注意力;3)将论文与同一领域的其他论文区分开。”
如果按照这个理想规则,那么使用标题来提取关键词应该会具有一定的代表性。(当然实际上还会有许多要考虑的因素,这里不再赘述)。
因此,作者的假设,再具体一点就是:随着时间的流逝,与该领域相关的标题词的出现频率,将在某种程度上反映出对某个研究领域的广泛兴趣。
那么,在过去这些年里,哪些才是热门呢?
作者统计了从1980年到2019年的论文,如下图
从术语分布来看,NLP论文标题中最常用的术语是language,其次是translation。如果考虑bigram的话,如下图:
最常出现的术语是machine translation,毫无疑问,机器翻译是NLP领域最受关注的研究领域之一。
我们再来看不同的研究领域随着时间线的变化:
(注:图中有个小错误,parsing对应于浅绿线)
从这张图中可以看到一个非常有意思的现象,即,在1980年-2008年之间近三十年的时间里,language、translation、parsing在80年代炙手可热,而现在已经远不如当年受欢迎了;而另一方面,neural在80年代经历了一段高潮之后,迅速下降,但近年来却又突破重围,再次超越而出。
我们可以把parsing的时间线单拎出来:
真的是不复当年!
另一个有意思的是,可以对比statistical machine, neural machine 和 machine translation在近40年里的变化趋势:
统计机器经历过一段高潮之后,现在已经基本销声匿迹了;而神经机器则随之崛起。正所谓“沉舟侧畔千帆过,病树前头万木春”!
引用率并不一定能反映一篇文章的质量或重要性,但却是一个重要的参考。作者指出:
“对于为什么有些论文会被大量引用,而有些不会,很难说清,论文被高引,可能是引起了该领域的想象力,也有可能是它们极具创造力,或者开辟了一个新的研究领域,在很大程度上推动了技术发展,检验了令人信服的假设,或者产生了对多数人有用的数据集等等。”
作者从Google Scholar上对4万多篇论文的引用率进行提取,获得了33,051篇论文的引用信息。
下面两张图,是同一个信息,但按照不同的顺序排列的——
第一张,按照相关所有论文的引用总数排列,可以看做机器翻译是总引用率最高的,其次是统计机器、情感分析。
但是这种方式有其弊端,即不同领域,发表的论文数量也不相同,于是作者又按照平均引用率进行排列,这就给我们展示了另外一种视角:
从中可以看出,自动评估才是引用率的王者,语料库和词汇资源才是广受欢迎的宠儿。所以,要想高引,还是要做资源建设呀。
作者别具一格地结合了学术年龄,来分析学术年龄对引用率的影响。
从中可以看出,在论文数量和总引用率上,学术年龄为1年和(10-14)年的是NLP的主力军。
在平均引用上,7年的学术年龄是最好的。倒U形的分布也很好理解,人们普遍会引用年限不是很久远、但也不是刚刚出炉的论文。对于那些学术年龄在35-50之间的,平均引用率则普遍低到可怕。
针对引用率,作者也做了性别分析:
显然,无论是总引用率、总论文数,还是平均引用、中位数引用,男性都要比女性高。(其中的unknown是考虑到有大量来自中国的论文作者,该研究作者不知道如何区分他们的性别)
作者也做了性别相关引用在时间跨度上的分析
请注意,女性第一作者在ACL的历史上一直是少数派; 但是平均而言,她们在早期(1965年至1989年)的论文被引用的次数明显多于同期的男性第一作者。从图中可以看出,这种情况在1990年代有所改变,男性第一作者的论文平均获得了明显更多的引用。引用差距在2000年代大大减少,2010-2016年期间引用差距进一步缩小。
有趣的是,在2000年之后,性别未知的作者几乎弥合了与男性作者之间的差距。作为中国人,笑而不语啊!
这里仅撷取该研究的部分结论,在作者的论文原文以及博客中有大量更充实的分析内容。感兴趣的读者可以:
1)关注「AI科技评论」微信公众号,后台回复「The State of NLP」下载论文原文;
2)阅读作者博客:https://medium.com/@nlpscholar(注:需翻墙)
雷锋网报道。