雷锋网 AI科技评论按:本文将推荐4篇精选前沿论文,以供参考学习。每篇荐文将包含推荐人简评、推荐人研究方向等。如对论文有疑问或者想进一步交流,欢迎大家联系推荐人共同讨论。
本文内容转载自哈尔滨工业大学社会计算与信息检索研究中心 公众号(微信ID:HIT_SCIR)的「赛尔推荐」栏目第0期,可关注公众号获得更多资讯。雷锋网AI科技评论获其授权转载。
论文题目:A Knowledge-Grounded Neural Conversation Model(AAAI 2018)
作者:Marjan Ghazvininejad, Chris Brockett, Ming-Wei Chang, Bill Dolan, Jianfeng Gao, Wen-tau Yih, Michel Galley
推荐人:张伟男(研究方向:人机对话,自然语言处理)
论文主要相关:人机对话,神经网络模型,知识工程
简评:在传统的 Encoder-Decoder 对话生成框架中,融入知识库作为中间件,生成相关性更好、信息更丰富的回复。这篇文章的亮点在于在完全数据驱动的端到端框架下,融入外部知识做生成内容的控制,当然完全数据驱动以及端到端训练本身已经不算什么新意,但将外部知识表示成若干的 Facts 并通过一个额外的记忆网络编码后加入到解码过程中则是文章主要的创新点。实验设计中规中矩,对比系统略显单薄。
论文题目:Annotation Artifacts in Natural Language Inference Data(NAACL 2018)
作者:Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel R. Bowman, Noah A. Smith
推荐人:刘一佳(研究方向:句法分析、语义分析)
论文主要相关:自然语言推理
简评:这是一篇即将发表在 NAACL 2018 上的论文。第一作者 Suchin Gururangan 来自华盛顿大学语言系,其余作者包括 Omer Levy、Sam Bowman、Noah Smith 等知名学者。本文提出一个值得讨论的问题:自然语言推理(NLI)数据在构造的过程中存在一系列的人工模式,这种模式的直接后果是模型可以在不需要知道推理前提(premise)的条件下就可以以 67%的准确率判断推理假设(hypothesis)是否是蕴含(entailment)中立(neural)或对立(contradiction)。文中值得关注的地方包括:如何分析数据,发掘其中的人工模式;如何在发掘了人工模式的基础上重新审视现有模型。另外,一个更泛化的问题是:我们的模型是真的完成我们对于相应任务的目标,还是在单纯「玩弄」数据?
论文链接:https://arxiv.org/pdf/1803.02324.pdf
论文题目:Dynamic Coattention Network for Question Answering(ICLR 2017)
作者:Caiming Xiong, Victor Zhong, Richard Socher
推荐人:施琦(研究方向:问答系统)
论文主要相关:基于文档集的问答(Document-based Question Answering)
简评:这是一篇发表于 ICLR 2017 上的文章,最近在 arxiv 上做了更新。本文在传统的 seq2seq 框架的 encoder 部分中加入了 co-attention 机制去融合表示问题和文档信息,然后再通过 Bi-LSTM 对已融合的信息和文档再次融合,得到最终表示结果;Decoder 部分通过 HMN 预测结果,并通过 LSTM 保存历史预测信息进行动态迭代。实验部分采用 EM 和 F1 来评价。文章主要亮点主要仍在于模型的创新,encoder 中的 co-attention 机制以及 decoder 中的动态迭代机制。通过动态迭代机制,可以避免模型陷入局部最优解从而得到错误的答案。
论文链接:https://arxiv.org/pdf/1611.01604.pdf
数据集链接:https://rajpurkar.github.io/SQuAD-explorer/
作者:David Alvarez-Melis, Tommi S. Jaakkola
推荐人:赵森栋(研究方向:文本挖掘)
论文主要相关:sequence-to-sequence 模型,预测的可解释性,机器翻译
简评:这是一篇理论性很强的文章,作者来自于著名的 MIT CSAIL(麻省理工人工智能实验室)。这篇文章的立意非常有意思,因为我们都知道,深度学习的可解释性是很多人的一块心病。本文试图解释神经网络的内部工作机制,旨在研究深度神经网络 sequence-to-sequence 模型的输入和输出之间的因果关联,进而解释输入序列和输出序列之间的映射关系。
很多 NLP 任务都用到的结构预测模大多数不具有可解释性。例如,很多面向 NLP 的深度学习模型中有大量的参数和复杂的结构。这些黑盒系统虽然在很多 NLP 任务上都获得了最好的结果,但是它们的结果却不可解释。如果模型有很好的解释能力,那么好处是很明显的。例如可以提高我们对模型的信任,可以更清楚的进行错误分析进而对模型进行更有针对性的优化。例如,在医疗决策系统中,不可解释、不能被医学专家验证的预测是不被接受的。如果无法理解系统输入是如何映射到输出上的,那么对于错误来源的分析也会是很大的挑战。
目前对于可解释性的研究,已有的工作主要从两个角度来进行:模型的可解释性,即使结构本身可解释;和预测的可解释性,即解释模型的特定预测。寻求让模型完全透明化是不太可能的。因此,在这篇文章中作者提出了一个针对预测可解释性的新方法。这个方法会返回一个「解释」,由一组输入和输出符号组成,并且输入和输出是因果相关的。这种因果依赖通过分析模型输入上的扰动产生的效果来获得。对于每个句子,用一个变异的 auto encoder 来产生变化,句子的变化都是语义相关的。由此推断出的因果依赖(区间估计)会产生一个在符号上的二部图(例如,词序列到词序列的连接二部图)。「解释」可以被推导为这个二部图上的最小割k-分划。
论文链接:http://aclweb.org/anthology/D17-1042
大事专用区
如果您在自己的研究和学习过程中也有想要分享的优质文章,请将推荐文章及相关信息通过邮件发送到zengbingyu@leiphone.com 或 微信联系(zengbingyu1018)。推荐内容包括:
1. 论文名字
2. 作者/机构
3. 录用渠道(选填)
4. 论文领域
5. 推荐简介(200-300字)