雷锋网 AI 科技评论按,自然语言处理顶会 EMNLP 2018 已经于 10 月 31 日开始了 Tutorial,正会将从 11 月 2 日开始。2017 年中,词嵌入(word-embedding)毫无疑问是最为火热的方法,以至于有人开玩笑说 EMNLP 的名称「自然语言处理实证方法(Empirical Methods in Natural Language Processing)」还不如解释为「自然语言处理嵌入方法(Embedding Methods in Natural Language Processing)」。
不过学术界显然不会满足于词嵌入一种方法,2018 年发表的成果就多样化地在更有难度的任务的尝试、对已有方法的更深入的探讨、对新方向的探索中展现了计算语言学的更多可能。这股新风气在同为自然语言处理顶会的 ACL 2018 的参会见闻中也有详细说明。
作为有专门的人工智能学术性研究院、有大规模团队和高额科研预算的企业,Facebook 和谷歌一如既往地在 EMNLP 2018 上收获颇丰。Facebook 有 14 篇论文被 EMNLP 接受,谷歌则有多达 26 篇(有一篇是两者合作完成)。虽然目前 EMNLP 还没有正式宣布论文接受数目,但雷锋网 AI 科技评论预计这个数目大概会在四百多篇。这样一来,有接近 10% 的收录论文就直接被 Facebook 和谷歌「承包」了。而且,EMNLP 2018 的两篇最佳长论文也刚好一篇出自 Facebook,一篇出自谷歌。
下面我们来详细看看这些研究成果。(文末提供这 39 篇论文的打包下载)
(也许与谷歌的研究人员人数众多有关,)谷歌在这次 EMNLP 2018 中的参与程度非常高。不仅有多位谷歌研究员将会在 EMNLP 大会中发表演讲,涉及主题包括语言身份识别、分割、语义解析、问答系统,还有许多人员参与到了会议各个级别的组织工作中。
借着论文被接受,谷歌也隆重推出了四个用于 NLP 任务的数据集。与现有的学术数据集在较理想的环境下进行评估不同,这四个新的数据集更关注的是实际部署的 NLP 系统会遇到的不那么规范的用户输入,都包含了真实的、自然人类交流中会出现的文本。同时这四个数据集也可以两类,一类是对目前已经过较多研究的核心 NLP 任务提出更高的挑战,另一类则是在对语句重构/编辑并保持语义不变的条件下鼓励探索新的研究方向。这些数据集的收集方式也非常有趣,让人不得不感慨这个时代真是数据无处不在、无所不能。
数据集列表
Noun-Verb Ambiguity in POS Tagging Dataset,部分对话标注中的非动词单词歧义性数据集。出自论文《A Challenge Set and Methods for Noun-Verb Ambiguity》。这个数据集研究了非动词单词歧义性引起的部分对话标注中的错误。数据集中包含了 3 万个经过标注的人类语言中自然出现的非平凡的非动词单词歧义的例子。不同的部分对话标注方法的准确率在这个数据集上分布在 57% 到 75% 之间。
Query Wellformedness Dataset,问题完备性数据集。出自论文《Identifying Well-formed Natural Language Questions》。这个数据集研究了搜索引擎中通常由关键词简单串联起来形成的用户输入与自然语言表述的完整句子构成的问答之间的关系。在实际应用中,区分关键词组成的搜索词组与自然语言问句也有很大的应用价值。这个数据集中包含了 2.5 万个标注问句,并且带有评分,评价这些问句与形式完备的自然语言问句之间的接近程度。
WikiSplit 数据集,分割与重新组织语句的语料。出自论文《Learning To Split and Rephrase From Wikipedia Edit History》。这个数据集是从维基百科的编辑记录中抽取样本,专门关注了从一个长句拆分成两个独立的短句,同时这两个短句合起来表示的意思和原来的长句相同的样本。这个数据集包含了一百万个句子拆分样本,词汇量超过为六十万词。
WikiAtomicEdits 数据集,来自原子性的维基百科编辑记录的多语言对照语料。出自论文《WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse》。研究人们编辑维基百科时的语言运用方式可以用来理解语言自己的结构。在这项研究中,谷歌的研究人员们专门关注了两种原子编辑操作:对一段连续的文本的一次性插入或者删除操作。他们从编辑记录中提取出了涵盖 8 中语言的共四千三百万次这样的编辑操作,并表明了这些操作对于语言的蕴含和论述提供了有价值的信息。
论文列表
A Challenge Set and Methods for Noun-Verb Ambiguity
非动词单词歧义性的挑战性数据集及方法
A Fast, Compact, Accurate Model for Language Identification of Codemixed Text
一个快速、紧凑、准确的模型,用于混有代码的文本的语言辨别
AirDialogue: An Environment for Goal-Oriented Dialogue Research
AirDialogue:一个为面向目标的对话研究设计的环境
Content Explorer: Recommending Novel Entities for a Document Writer
内容浏览器:为文档作者推荐新的实体
Deep Relevance Ranking using Enhanced Document-Query Interactions
借助增强的文档-查询互动的深度关联性排序
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering
HotpotQA:用于多样化、可解释的多次跳转问答的数据集
Identifying Well-formed Natural Language Questions
识别格式完备的自然语言问题
Learning To Split and Rephrase From Wikipedia Edit History
从维基百科的编辑历史中学习分割和重新组织语句
Linguistically-Informed Self-Attention for Semantic Role Labeling
用于语义角色标注的考虑语言学信息的自我注意力方法
两篇最佳长论文之一
Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text
使用知识库和文本早期聚合技术的开放领域问答
Noise Contrastive Estimation for Conditional Models: Consistency and Statistical Efficiency
条件模型的噪声对比估计:连续性与统计效率研究
Part-of-Speech Tagging for Code-Switched, Transliterated Texts without Explicit Language Identification
在不显式指定语言的状况下对代码转换的、根据读音拼写的文本做部分语句标注
Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension
以短语为索引的问答:可拓展文档理解的新挑战
Policy Shaping and Generalized Update Equations for Semantic Parsing from Denotations
用于标志文本的语意解析的策略塑造以及通用化更新公式
Revisiting Character-Based Neural Machine Translation with Capacity and Compression
带着容量和压缩的疑问,重新思考基于字符的神经机器翻译
Self-governing neural networks for on-device short text classification
用于终端设备上的短文本分类任务的自组织神经网络
Semi-Supervised Sequence Modeling with Cross-View Training
带有跨视角训练的半监督序列建模
State-of-the-art Chinese Word Segmentation with Bi-LSTMs
利用双向LSTM的顶级中文分词
Subgoal Discovery for Hierarchical Dialogue Policy Learning
用于层次化对话策略学习的次目标发掘
SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine Translation
SwitchOut:一个用于神经机器翻译的高效的数据扩增算法
The Importance of Generation Order in Language Modeling
对语言建模中生成顺序的重要性的探究
Training Deeper Neural Machine Translation Models with Transparent Attention
利用透明注意力训练更深的神经机器翻译模型
Understanding Back-Translation at Scale
理解大规模反向翻译
与 Facebook 合作完成
Unsupervised Natural Language Generation with Denoising Autoencoders
利用降噪自动编码器进行无监督自然语言生成
WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse
WikiAtomicEdits:用于语言建模和论述的多语言维基百科编辑记录语料库
WikiConv: A Corpus of the Complete Conversational History of a Large Online Collaborative Community
WikiConv:一个大型在线合作型社区的完整对话历史语料库
与谷歌类似,Facebook 也在开发新的数据集上花了不少功夫。他们这次在 EMNLP 2018 上带来的数据集是 XNLI,它可以用于自然语言处理中的跨语言处理方法。这个数据集在目前广泛使用的 MultiNLI 多风格自然语言推理语料库基础上增加了 14 种新的语言,其中包括了两种稀缺语料资源的语言斯瓦希里语与乌尔都语。
论文列表
A Dataset for Telling the Stories of Social Media Videos
一个从社交媒体视频讲故事的数据集
Auto-Encoding Dictionary Definitions into Consistent Word Embeddings
把自动编码字典的定义转换为连续的词嵌入
Do explanations make VQA models more predictable to a human?
视觉问答模型的解释能让它们对人类来说更好预测吗?
Dynamic Meta-Embeddings for Improved Sentence Representations
用动态元嵌入提供更好的句子表征
Extending Neural Generative Conversational Model using External Knowledge Sources
用外部知识源拓展神经生成式对话模型
How agents see things: On visual representations in an emergent language game
智能体是怎么观察事物的:对演变语言游戏中的视觉表征的研究
Loss in Translation: Learning Bilingual Word Mapping with a Retrieval Criterion
在翻译中迷失:通过回溯条件学习双语单词映射
Neural Compositional Denotational Semantics for Question Answering
用于问答的神经合成标志语义
Non-Adversarial Unsupervised Word Translation
非对抗性训练的无监督单词翻译
Phrase-Based & Neural Unsupervised Machine Translation
基于词语的、无监督神经网络的机器翻译
两篇最佳论文之一,雷锋网 AI 科技评论解读文章见 提升 11BLEU 的无监督机器翻译
Semantic Parsing for Task Oriented Dialog using Hierarchical Representations
通过层次化表征对面向任务的对话做语义解析
Training Millions of Personalized Dialogue Agents
训练一百万个个性化定制的对话机器人
Understanding Back-Translation at Scale
理解大规模反向翻译
与谷歌合作完成
XNLI: Evaluating Cross-lingual Sentence Representations
XNLI:评价跨语言的句子表征
论文打包下载请访问 http://ai.yanxishe.com/page/resourceDetail/622。更多 EMNLP 2018 报道,请继续关注雷锋网 AI 科技评论。