自然语言处理顶会 NAACL 2018 最佳论文、时间检验论文揭晓

2018/04/23 18:27

自然语言处理顶会 NAACL 2018 最佳论文、时间检验论文揭晓雷锋网 AI 科技评论按：ACL、EMNLP、NAACL - HLT、COLING 是 NLP 领域的四大顶会。前三者都由 ACL（Association of Computational Linguistics）举办，其中 NAACL - HLT（Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies，一般简称为 NAACL）虽然名义上只是 ACL 北美分会，但在 NLP 圈里也是无可争议的顶级会议，名称中的 HLT 也直接宣告了对于人类语言处理技术的关注。

第 16 届 NAACL （NAACL 2018）将于今年 6 月 1 日至 6 月 6 日在美国路易斯安那州新奥尔良市举行，接受论文名单已经公布，共收到长论文投稿 647 篇，其中接受 207 篇，接受率 32%；短论文投稿 425 篇，接受 125 篇，接受率 29%。会议官网也已经提前揭晓了本届会议的 4 篇杰出论文（Outstanding Papers）和 3 篇时间检验奖获奖论文（Test-of-Time Award Papers）。

Outstanding Papers

Deep Contextualized Word Representations

深度上下文单词表征
地址：https://arxiv.org/abs/1802.05365
摘要：本文中作者们介绍了一种新的深度上下文单词表征，它可以建模（1）单词用法中的复杂特性（比如句法和语义），以及（2）这些用法在不同的语言上下文中如何变化（比如为词的多义性建模）。作者们在大文本语料库上预训练了一个深度双向语言模型（biLM），然后把根据它的内部状态学到的函数作为词向量。作者们表明，这些学到的词表征可以轻易地加入到现有的模型中，并在回答问题、文本蕴含、情感分析等 6 个不同的有难度的 NLP 问题中大幅提高最佳表现。作者们也进行了分析，表明显露出预训练模型的深度内部状态这一做法非常重要，这使得后续的模型可以混合不同种类的半监督信号。

Learning to Map Context-Dependent Sentences to Executable Formal Queries

学习把基于上下文的语句映射为可执行的正式查询
地址：https://arxiv.org/abs/1804.06868
摘要：论文中作者们提出了一种基于上下文的模型，用来把一组交互对话中的语句映射为可以执行的正式查询语句。为了把交互过程的历史也包含在内，模型中维持着一个交互对话级别的编码器，它会在每轮对话结束后更新，也能够在生成过程中拷贝之前曾经预测过的查询语句中的子序列。论文中的方法合并了语句之间的显示参照和隐式参照。作者们在 ATIS 航班规划交互上评估了模型，展现出了上下文建模和显式参照的优势。

Neural Text Generation in Stories using Entity Representations as Context

把实体表征作为上下文的叙述文体中的神经文本生成
地址：https://jiyfeng.github.io/publication/papers/clark2018neural.pdf
摘要：作者们介绍了一种神经文本生成方法，它可以显式地表示出文本中提到的实体。实体表征是向量的形式，它们可以随着文本处理过程更新；实体表征是专门为小说或者新闻故事这样的叙述性文本设计的。作者们的实验表明，为实体建模的做法可以在以下两个自动化测试中带来好处：提及生成，即模型需要选择下一个要提及的实体是什么，提及时又需要用哪个词；以及在正确的下一句和来自同一个故事的更靠后的一句之间进行选择。作者们也人工评估了在故事上下文中自动生成的文本，研究结果与作者们希望强调实体的想法相符，并为未来研究指出了方向。

Recurrent Neural Networks as Weighted Language Recognizers

把循环神经网络作为加权语言识别器的研究
地址：https://arxiv.org/abs/1711.05408
摘要：论文中作者们探究了简单的循环神经网络（RNNs）作为正式模型识别加权语言时的不同问题的计算复杂度。作者们重点关注的模型是单层、ReLU 激活函数、有理数权重、带 softmax 的 RNN 网络，这种网络在自然语言处理应用中非常常见。作者们表明对于这样的 RNN 来说，多数的问题都是不可判定的，比如一致性、等价性、最小化以及权重最高的字符串的确定性。然而，对于一致性 RNN 来说，这最后一个问题是可以判定的，虽然解决方案的长度会超出所有计算范围。如果附加条件限定字符串为多项式长度，这个问题变为 NP-complete 以及 APX-hard。总结来说，这表明这种 RNN 的实际应用中近似和启发性算法是必须的。

Test-of-Time Award Papers

雷锋网 AI 科技评论注意到，实际上这是 NAACL 会议首次设立时间检验奖，论文选择范围为 2002-2012 年 ACL 的各个会议（包括 ACL, NAACL, EACL, EMNLP 和 CONLL）、workshop 以及期刊（TACL 和 CL journal）中的关于计算语言学（Computational Linguistics）的论文，意在表彰直到今天都对计算语言学领域有显著、长期影响的论文。在 NAACL 2018 区域主席提名的 19 篇无利益冲突的论文中，最终选出了如下三篇论文，也都确实很值得回味。

BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU：一种自动化评价机器翻译的方法
地址：https://www.aclweb.org/anthology/P02-1040.pdf
来源：ACL 2002
摘要：如果让人类对机器翻译的结果做评价，虽然拓展性好但较为昂贵。人类评价的过程可能需要好几个月的时间，其中涉及的人类劳动也无法反复使用。这篇论文中提出了一种自动的机器翻译评价方法，它快速、便宜、不依赖于语言，它的评价结果与人类的评价结果高度吻合，而且运行成本相当低。作者们提出的这种方法可以作为有经验的人类评价者的自动化备用方法，在有需要做快速、频繁的评价时就可以使用它。

Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms

隐马尔可夫模型的判别性训练方法：感知机算法的理论和实验
地址：http://www.aclweb.org/anthology/W02-1001
来源：EMNLP 2002
摘要：作者提出了一种新的算法用于训练分类模型，它可以作为最大熵模型或者条件随机场模型（CRFs）的替代方法。这种算法依靠的是训练样本的 Viterbi 解码，并且结合了简单的加式更新。作者对感知机算法对于分类问题的收敛性的证明加以修改，据此理论证明了算法。作者在语音段分类和基础名词短语分块任务上进行了实验，所提的方法表现都要优于最大熵分类器。

Thumbs up?: Sentiment Classification using Machine Learning Techniques

你说好不好？机器学习方法的情感分类
地址：http://www.aclweb.org/anthology/W02-1011
来源：EMNLP 2002
摘要：论文中研究了这样一个问题，文档分类的依据不再按照话题，而是按照总体感情，比如判断一句评论是正面的还是负面的。把电影评论作为数据，作者们发现标准的机器学习技术明确地优于人类设计的基准模型。然而，作者们实验的三种机器学习方法（朴素贝叶斯，最大熵分类，SVM）在情感分类任务中的表现并不如在传统的基于话题的分类任务中表现好。作者们还验证了几个使得情感分类比话题分类更难的因素。

via NAACL Chair's Blog，雷锋网 AI 科技评论编译