资讯 人工智能

Deepmind 最新阅读理解数据集 NarrativeQA ,让机器挑战更复杂阅读理解问题

作者:AI科技评论
2017/12/21 14:28

雷锋网按:自然语言处理始终是实现智能、自然人机交互愿景里一块重要的技术基石。而机器阅读理解则可以被视为是自然语言处理领域皇冠上的明珠,也是目前该领域的研究焦点之一。在这一领域,最有名的数据集是由斯坦福大学自然语言计算组发起的 SQuAD(Stanford Question Answering Dataset)和相关的文本理解挑战赛,它也被誉为“机器阅读理解界的 ImageNet ”。而最近, Deepmind 发布了一个新的阅读理解数据集 NarrativeQA,那么这个数据集有什么特点呢?一起来和雷锋网(公众号:雷锋网)了解一下。

Deepmind 最新阅读理解数据集 NarrativeQA ,让机器挑战更复杂阅读理解问题

在最近一篇论文《The NarrativeQA Reading Comprehension Challenge》中,Deepmind 解释了这个推出这个数据集的初衷:

自然语言理解试图创建阅读和理解文本的模型。评估理解模型语言理解能力的一个常用策略是证明他们能回答他们所阅读的文档的问题,类似于儿童在学习阅读时如何理解阅读内容的能力。阅读文档后,读者通常不能从记忆中重现整个文本,但经常可以回答关于文档的潜在叙述元素的问题,如突出的实体,事件,地点以及其相互关系等。因此,测试理解需要创建检查高层次的抽象的问题,而不是只在一个句子中出现一次的事实。


不幸的是,关于文档的表面问题通常可以使用浅层模式匹配或基于全局显著性的策略或猜测成功(由人和机器)回答。我们调查了现有的QA数据集,结果显示它们要么太小、要么可以通过浅的启发式算法进行解答(第2节);另一方面,在表面文字无法直接解答、必须通过内在叙述进行推导的问题,需要形成更多在文件过程中表达的事件和关系的抽象表征。回答这些问题要求读者将信息分散在整个文件中的几个陈述中,并根据这一综合信息产生一个有说服力的答案。也就是说,他们测试得失读者理解语言的能力,而不仅仅是模式匹配。基于此,我们提出了一个新的任务和数据集,我们称之为NarrativeQA,它将测试并奖励接近这种能力水平的智能体。

Deepmind 还对目前主要的机器阅读理解数据集进行了比较:

Deepmind 最新阅读理解数据集 NarrativeQA ,让机器挑战更复杂阅读理解问题

(图为目前主流机器阅读理解数据集的比较)

总体来说,DeepMind认为目前的阅读理解数据集均存在着一定的局限性,包括:数据集小、不自然、只需要一句话定位回答的必须信息,等等。因而 Deepmind 认为,在这些数据集上的测试可能都是一个不能真实反映机器阅读理解能力的伪命题。

Deepmind 最新阅读理解数据集 NarrativeQA ,让机器挑战更复杂阅读理解问题

(NarrativeQA主要数据)

相比之下,NarrativeQA 包含来自于书本和电影剧本的1567个完整故事,数据集划分为不重叠的训练、验证和测试三个部分,共有 46,765个问题答案对,问题由人类编写,并且多为“何时/何地/何人/为何”之类的较复杂问题。

虽然在论文和网站中并未公布数据集的下载地址,但雷锋网发现,在 Deepmind 的 Twitter 的留言中公布了在 Github 上的项目地址,点击此处即可前往


文章点评
相关文章