「顶会见闻系列」之 EMNLP 2018 详细参会见闻（下篇）

emnlp 2018 自然语言处理人工智能视觉问答

2018/11/08 11:54

雷锋网 AI 科技评论按：本篇属于「顶会见闻系列」。Patrick Lewis 是 UCL 的自然语言处理博士生，早前参加了 EMNLP 2018，并在个人博客写下了他的参会见闻，雷锋网 AI 科技评论对此进行了有删节的编译。本文为顶会见闻的下篇，上篇可移步《「顶会见闻系列」之 EMNLP 2018 详细参会见闻（上篇）》进行阅读。

「顶会见闻系列」之 EMNLP 2018 详细参会见闻（下篇）

EMNLP Session 2

《Adaptive Document Retrieval for Deep Question Answering》

《用于深度问答的自适应文档检索》

作者： Bernhard Kratzwald，Stefan Feuerriegel

我觉得这项研究很有意思，因为它和我们在 Bloomsbury AI 内部做过的实验很像。他们的发现也和我们的很像，但不完全一样。通常来说问答系统都会包含一个信息检索（information retrieval）步骤，收集相关的文档，然后有一个阅读步骤从候选的文档中提取回答。这篇论文的作者们研究了能否为文档检索设定一个自适应的数目，这个数目的选择取决于语料库大小以及问题的类型。他们的研究动机来自于，他们的实验表明，随着语料库大小增大，首位答案的召回率会变得不稳定，而且需要用到比较多的文档；但是对于小的语料库，比较多的文档反倒会导致准确率下降，因为模型被许多可疑的答案干扰了。在 Bloomsbury AI 的时候我们就发现，在找包含回答的那个自然段的时候，我们的文本阅读器的表现总是比信息检索的表现要好，这个答案干扰对于我们不是什么问题。

EMNLP Session 3

《Generating Syntactic Paraphrases》

《句法释义的生成》

作者：Emilie Colin，Claire Gardent

两名作者研究了句法释义的产生。研究工作表明在句法约束条件下的句法生成将带有独特的句法释义，而这些句法能够从数据、文本或两者的组合中生成。该任务被视为基于输入与句法约束为条件的结构化预测。同样的输入可以映射到多个输出，且保证每个输出可以满足不同的句法约束。它们一共有 4 项任务：

输入 RDF 三元组并生成文本。
输入一个句子和一个约束，并生成文本。
输入文本与 RDF 三元组，并生成含有 RFD 三元组的文本。
输入文本与 RDF 三元组，并生成删去 RDF 三元组的文本。

结果显示，模型在所有的任务上表现良好，且语法约束极大地提升了 BLEU 得分。

EMNLP Session 4

我参加了主题为视觉问答（VQA）的第 4 个 session，可惜我不是很懂这个。会议将 RecipeQA 归纳到多模态 QA 里，这让我觉得很有意思，不过这个成果截止目前还没有得到充分的研究。

《RecipeQA: A Challenge Dataset for Multimodal Comprehension of Cooking Recipes.》

《RecipeQA：多模态理解食谱的挑战数据集》

作者：semh Yagcioglu，Aykut Erdem，Erkut Erdem，Nazli Ikizler-Cinbis

作者留意到了当今业界需要更多 QA 挑战数据集的趋势。他们借助食谱网站上的资料构建了多模式程序化 RecipeQA 数据集。里头的烹饪步骤分别附上了配图，因此可视作多模式问答数据集。数据集只有中等大小（36K 个问-答对），大部分问题的形式是有多种选择的完形填空。数据集中同时包含了视觉 QA 和文本 QA。跟 ProPara（一个类似的实体状态跟踪数据集）的对比让我们发现了一些很有趣的事情。那就是这个数据集包含更多的实例，然而每个文档上的标签却要少得多。

EMNLP Session 5

我们通过 poster 在这个环节向公众展示我们的 ShARC 工作成果。尽管开展的时间有点早（尤其是经过前一天特别有意思的行业招待活动后！），以及 Poster 的位置不太理想，然而我们还是得到了了前来参观的人们的积极反馈。我们希望能有更多人参与到我们的任务中来，很快我会在博客中更新一篇介绍 ShARC 数据集与解决任务的文章！

EMNLP Session 6

《emrQA: A Large Corpus for Question Answering on Electronic Medical Records》

《emrQA：电子病历问答的大型语料库》

作者： Anusri Pampari，Preethi Raghavan，Jennifer Liang ， Jian Peng

作者利用来自 i2b2 数据集的专家临床记录注释。他们使用了半自动的数据集创建方法，从而得以根据电子化的医疗档案创建包含了 40 万个问题-证据对的大规模医疗 QA 数据集。他们追加发布了 100 万个提问-逻辑形式对。此外，还增加一些在 SQuad 等流行机器理解数据集中不存在的任务。这些任务更加注重计算与时间顺序推理，这对于医学问题的回答来说至关重要。他们是按以下的方式去构建数据集：

先收集相关领域的问题，然后将问题形成模板。
将模板与经过专家注释的逻辑形式进行关联。
使用现有的数据注释集来批量生成问题和逻辑形式模版，进而获取答案。

目前可供他们使用的问题模板只有 680 个，尚不足以用来大范围生成自然语言问题。

《HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering.》

《HotpotQA：用于多样化、具有可解释性的多跳问答的数据集》

作者： Yang Zhilin Yang，Peng Qi，Saizheng Zhang，Yoshua Bengio，William Cohen，Ruslan Salakhutdinov，Christopher D. Manning

HotPotQA 是一套全新的 QA 数据集，试图涵盖许多种不同的现象，其中包括：多跳阅读、基于文本的推理、不同领域、可解释性以及比较问题。HotPotQA 巧妙的地方在于，数据集中标注出了哪些句子包含了回答问题所需要的事实，因此也要求模型不仅仅要回答问题，还要能用「引用」用于回答问题的论述。这些论述可以作为模型训练阶段的监督。它们将多跳问题分为两大类：

类型 1：通过推断完成第二步任务
类型 2：通过检查多个限定内容来获取答案

所谓的比较问题也很新（但这个归纳总觉得还是有些武断了，但它们的「多跳」属性是确定的，因为模型必须回答关于被比较的事物最终与答案进行比较的问题）。

模型表明辅助论述在训练过程中起到了重要作用，然而他们的 BiDAF ++ 基线的表现与人类相比还是有点差了。

《Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering.》

《盔甲能够进行导电吗？一套全新的 Open Book 问答数据集》

作者：Todor Mihaylov，Peter Clark，Tushar Khot，Ashish Sabharwal

又有一套小规模的 AI2 挑战数据集要介绍给大家——OpenBook 数据集。数据集的主要任务是利用部分上下文进行多跳推理。它提供了论述（以开放查询的形式）和一个问题，这个问题是一个需要运用论述和常识知识才能正确回答的多项选择问题。该任务介于阅读理解和开放式 QA 之间。数据集的体量非常小（5900 个问题对应 1,326 条论述的开放查询），因此需要进行一些迁移学习。和 Swag 一样，他们在构建数据集时会测试现有的系统是否表现不佳，来使数据集变得更具有挑战性。这虽然在理论上听起来很棒，但我怀疑它是否会引入难以被检测到的偏差因素。

《Evaluating Theory of Mind in Question Answering》

《评价问答中的心智理论》

作者：Aida Nematzadeh，Kaylee Burns，Erin Grant，Alison Gopnik，Tom Griffiths

本文中的研究表明了一个有趣的变化。好的问答需要进行推理，而不仅依赖信息的查找。作者想知道模型是否使用了正确的信息来回答问题？亦或纯粹在作弊。BABI 任务不会检测关于信念的推理。因此，作者设计了一套用于评估模型对于信念推理能力的任务，该任务被称作「Sally Anne Tasks」。任务描述了一个相当简单的情境，这里头 Sally 和 Anne 将与物体产生互动，但有些时候她们并不知道彼此之间当下的状态。我举个例子：

Sally 把球放到盒子里，
Sally 离开了房间，
Anne 把球从盒子里取出并放入袋里。
然后 Sally 重新回到了房间。

当模型被问到「莎莉要上哪去找球呢？」，正确的答案需要模型理解 Sally 始终相信球放在她一开始置放的位置，也就是盒子，而不是袋子。

他们测试了几种不同的信念任务：

一阶真实信念：例如 Sally 观察到了一个物体运动之后对它的信念
第一顺序错误信念：例如 Sally 未观察到一个物体运动时对它的信念
第二个错误的信念：例如 Anne 对于 Sally 信念的想法

他们使用了 memn2n、一个多观察者模型（具有 sally、anne 与观察者的独立记忆）、Entnet 以及关系网络（relnet）。最终结果显示一阶信念对于模型来说更难理解，对人类（成人）来说就不难理解，具备外显记忆的模型基本上会在信念问题上出现失误，而 Entnet 和 relnet 则是在记忆问题上出现失误。看来具有递归性质的模型是构建高阶信念模型的必备。

EMNLP Session 7

我去参观了一些小型 posters。有几个让我觉得非常有意思，在这里推荐其中的三个：

《Generating Natural Language Adversarial Examples.》
《生成自然语言的对抗性样本》
作者：Moustafa Alzantot，Yash Sharma，Ahmed Elgohary，Bo-Jhang Ho，Mani Srivastava，Kai-Wei Chang
《Loss in Translation: Learning Bilingual Word Mapping with a Retrieval Criterion.》
《在翻译中迷失：通过回溯条件学习双语单词映射》
作者：Armand Joulin，Piotr Bojanowski，Tomas Mikolov，HervéJégou，Edouard Grave
《Bayesian Compression for Natural Language Processing.》
《用于自然语言处理的贝叶斯压缩》
作者： Nadezhda Chirkova，Ekaterina Lobacheva，Dmitry Vetrov

Keynote II：《Understanding the News that Moves Markets》

新闻报道如何推动市场前进

主讲人是 Gideon Mann（Bloomberg，L.P。）

这是一场很有意思的演讲，提醒了我们为何有责任创建一个强大 NLP 系统，并且在社会上一些至关重要的系统里进行采用。然而我们应该如何建立合适的检查与平衡机制，以确保 nlp 系统中的缺陷不会引发巨大的社会动荡？说真的，市场对于财经新闻的极速反应让人既感到敬畏又恐惧。

EMNLP Session 8

生成领域会议：这是一个非常高质量的 session。虽然我对该领域了解的不算多，但会议里有很多具有启发性的工作，有一些我已经想好了如何在工作中应用。

《Integrating Transformer and Paraphrase Rules for Sentence Simplification.》

《集成 Transformer 和释义规则用于句子简化》

作者：Sanqiang Zhao，Rui Meng，Daqing He，Andi Saptono，Bambang Parmanto

本文任务试图在保留原始含义的情况下对语言进行简化，以便于儿童或非母语人士理解。他们使用了 Transformer 模型和简单的 PPDB KB 中的集成规则来增强简化效果，并选择更加精确的简化规则。

模型整合规则的方式是引入一个新的损失，它会让使用简单的规则的可能性最大化，另外也会让一个序列生成损失变小。另外，他们还利用了一个记忆简化规则的框架来强化模型。

《Learning Neural Templates for Text Generation.》

《学习神经模版用于文本生成》

作者：Sam Wiseman，Stuart Shieber，Alexander Rush

这项工作涉及到利用条件神经半隐马尔可夫模型进行文本生成的学习模板。他们（正确地）认为，通过自然语言模板生成的文本比直接神经序列生成的文本更具备可解释性和可控性。他们使用 wikiBio 数据集进行文本生成，其中 wikidata 信息框通常用于对信息框的自然语言描述上。这是一个很酷的原创工作，使用了各种旧时热门动态编程算法构建的应用程序。

《Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation.》

《用于神经翻译和文本生成的伪参考多参考训练》

作者：Renjie Zheng， Mingbo Ma，Liang Huang

本文的工作重点在于尽可能为翻译与生成任务生成更多的参考资料，基本上与释义生成任务没什么不同。文中陈述了一个（通常避而不谈的、让人难以启齿的）明显的事实，即存在指数级的有效的、保留了原语义的示意/参考转换句子。他们提出可以用点阵构建方法生成更多这样的句子。他们首先展示了如何通过「硬性对齐」来进行点阵构建，1，通过合并相同的单词压缩现有的参考（也许是递归式地？），2，遍历这个点阵，为所有从节点出发一直到点阵结尾的所有可能路线创建一个伪参考。

最后，他们通过语言模型中的语义相似性来扩展「硬性对齐」，以便该「对齐」同样可以用于同义词。该方法的缺点是产生的句子结构与原出处的差异不是很大。

EMNLP Session 9

这里我穿插参与了几项不同的会议议程以及海报环节。

《Noise Contrastive Estimation and Negative Sampling for Conditional Models: Consistency and Statistical Efficiency.》

《用于噪声对比估计与负抽样的条件模型：一致性和统计效率》

作者： Zhuang Ma， Michael Collins

这个（主要是理论上的）工作主要着眼于噪声对比估计排序、分类损失以及和 MLE 的一致性。作者发现基于排序的损失相比分类损失，在更多任务上更加具有一致性（仅在假设分区函数保持不变的情况下具有一致性），不过两者都会随着 K 值的增加而更加接近 MSE。

《Pathologies of Neural Models Make Interpretations Difficult》

《神经模型的病理学使解释变得困难》

作者：Shi Feng， Eric Wallace， Alvin Grissom II， Mohit Iyyer， Pedro Rodriguez， Jordan Boyd-Graber

这项工作试图探究一旦阅读理解问题因为丢失单词而「缩短」之后会发生什么。他们展示了一些例子，表明即使他们将问题简化为单个词仍然可以保持相同的答案。这个方法与一般常用的创建「对抗者」（不断对输入增加扰动，直到输出发生变化）的方法正好相反。他们在判别答案时会删除了一个在他们看来「最不重要」的词。他们认为，随着输入变得不明确，输出的置信度应该随之降低，并且概率分布也会更松散。他们举了一些例子：

SQUAD：「特斯拉把钱花在什么地方？」>「钱」（0.78 - > 0.91）
VQA：「这朵花是什么颜色」>「花」（0.83 - > 0.82）

他们最终提出了一种解决问题的方法，即是通过生成无用的样本，然后训练模型遇到缩短的问题时把输出的熵最大化。

《Adversarial Deep Averaging Networks for Cross-Lingual Sentiment Classification.》

《用于跨语言情感分类的对抗性深度平均网络》

作者：Xilun Chen，Yu Sun，Ben Athiwaratkun，Claire Cardie，Kilian Weinberg

没有别的语言比英语有更多的情绪数据。本文试图通过利用资源丰富的语言来处理其他语言中的情感任务，作者试图仅使用单语数据来学习语言的固定特征。他们在嵌入语言中使用了双语/多语言词嵌入和语言鉴别器网络。

EMNLP Session 10

这段时间里我都在问题回答的分会场。

《Joint Multitask Learning for Community Question Answering Using Task-Specific Embeddings.》

使用任务特定嵌入进行社区问答的联合多任务学习

作者： Shafiq Joty，LluísMàrquez，Preslav Nakov

作者试图利用图形模型（很高兴能在 QA 中看到这个）融合社区问答的三个任务来处理社区问答所面临的问题。在社区问答中他们定义的三个任务分别是：

找到与新问题类似的问题
找到与新问题相关的答案
确认一个帖子中某个问题的回答是否是一个好的答案

由于三个任务之间互相能够受益，因此作者使用符合联合规范的 CRF 将三者进行建模，并使用 rmsprop 进行训练，最后再通过 LoopyBP 进行推理演算。

《What Makes Reading Comprehension Questions Easier?》

《是什么使得阅读理解问题变得容易？》

作者： Saku Sugawara，Kentaro Inui，Satoshi Sekine，Akiko Aizawa

本文与我在 EMNLP 期间看到其他一些工作中反复提到的趋势有关，其中包括有点相关但读起来却不是很有趣的最佳短篇论文奖。作者试图评估不同 QA 数据集的难度。本文定义了一些启发式方法来回答问题，并断言如果能够通过简单的启发式方法来回答问题，就说明这个问题很简单。

在一些数据集中，寻找与问题最相似的句子是一个行之有效的回答问题的方法。Triviaqa、race、mctest、arc-e 和 arc-c 都是公认的非常具有挑战性的数据集，而其中 Qangaroo 则被发现有富有变化性，即是简单的问题会非常简单，而困难的问题则会非常困难。作者也充分思考了到底是这些问题回答起来有难度，还是这些问题就无法回答。

总的来说，TriviaQA、Quangaroo 和 ARC 被发现拥有相当多「无法解决」的问题。

EMNLP Session 11

《The Importance of Being Recurrent for Modeling Hierarchical Structure》

《探究对层次化的结构建模时，循环结构的重要性》

作者：Ke Tran，Arianna Bisazza，Christof Monz

作者们专门探究了 LSTM 和 Tranformer 模型在那些对层次化结构有专门要求的任务中的建模表现。他们观察了模型生成的语言中宾语-动词一致性以及逻辑推理的表现。他们得到了一个有意思的结论，和大多数人的直觉以及研究社区里大家积极投入的方向相反，他们发现基于 LSTM 的模型总是能以一个很小的、但是足以察觉到的差别胜过 Tranformer 模型。可别忘了，Tranformer 模型是能有力地发现句子中不同的词之间的相互联系的。这个结果很难给出合理的解释，但是理应得到更多的研究，以及尝试复现他们的结果。

最佳论文奖

《How Much Reading Does Reading Comprehension Require? A Critical Investigation of Popular Benchmarks》

《阅读理解需要阅读多少文本？对热门 benchmark 的重点调查》

作者：Divyansh Kaushik，Zachary C. Lipton

这篇论文研究的课题很热门、很简单、也很自洽。作者们仅仅用问答的上下文或者问题来训练模型，有意识地不让模型获得理论上解决任务所必须的信息。今年 EMNLP 中还有几篇论文也思考了类似的问题，作者们正确地引用了前几年中的自然语言推理方面的类似的研究成果，以及其它相关设置的论文，很棒。

《Linguistically-Informed Self-Attention for Semantic Role Labeling》

《用于语义角色标注的考虑语言学信息的自我注意力方法》

作者：Emma Strubell， Patrick Verga， Daniel Andor，David Weiss，Andrew McCallum

这是一项很棒的研究，他们的演讲也非常棒。作者们首先指出，对于互联网规模的自然语言处理应用部署，快速、准确、鲁棒是非常关键的特性。作者们研究了语义角色标注问题，他们通过增加针对语言现象的多任务学习技术，在领域内和领域外都取得了明显的进步。他们通过引入一种新形式的自我注意力机制，「关注句法的自我注意力」（syntactically informed self attention），对 Tranformer 模型架构进行了增强。其中的一个注意力计算点会用来参与到单词的句法计算点中。除此之外，他们用了 Tranformer 模型的不同层来计算其它各种语法内容，比如姿态标注、论述检测、语义角色扩张以及标签

《Phrase-Based & Neural Unsupervised Machine Translation》

《基于词语的、无监督的神经网络机器翻译》

作者：Guillaume Lample， Myle Ott，Alexis Conneau， Ludovic Denoyer，Marc Aurelio Ranzato

在这个压轴演讲中，Guillaume 讲解了这项（现在已经名声远扬的）无监督机器翻译研究。这个过程可以被总结成三个步骤：

初始化：两个语言分布可以通过无监督地学习词组到词组、或者词到词的翻译进行粗略的对齐
语言建模：在每个语言中分别独立地学习一个语言模型，它可以用来为句子降噪
反向翻译：从一个已有的源句子开始，把这个句子通过现有模型翻译成目标语言，然后通过源语言到目标语言的翻译对这个句子进行重构。其中的差异就可以用来训练目标语言到源语言的翻译模型。

他们也展示了用他们的框架做风格转换的研究的预览，真的超级棒。

哇，终于写完了。好大一摞论文啊。

（下篇完）

这是「顶会见闻系列」之 EMNLP 2018 的下篇，大家可移步《「顶会见闻系列」之 EMNLP 2018 详细参会见闻（上篇）》阅读前面的精彩内容。

via：https://www.patricklewis.io/post/emnlp2018/，雷锋网 AI 科技评论编译