雷锋网 AI 科技评论消息,2018 年对于 NLP 领域、特别对于中国 NLP 研究来说,想必是不平凡的一年。在斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset)文本理解挑战赛上,以阿里巴巴、 微软亚洲研究院(下称 MSRA)为代表的中国研究团队在近日相继刷新了 SQuAD 纪录,机器阅读能力的准确率首次超越人类。
官网显示,阿里巴巴与 MSRA 目前并列 SQuAD 榜单的第一名。
阿里巴巴 iDST NLP 团队于 1 月 5 日提交的 SLQA + 在 EM 值(Exact Match, 表示预测答案和真实答案完全匹配)上也获得了 82.440 的优秀成绩,F1 值(F1-score,评测模型的整体性能)则为 88.607。
MSRA 自然语言计算组于 2018 年 1 月 3 日提交的 R-NET 模型在 EM 值上获得了 82.650 的成绩,在 F1 值上的表现为 88.493 。
两个团队的 EM 值成绩都超越了人类在该项目上的得分——82.304,这也标志着,机器阅读理解准确率超越人类这一看似困难重重的目标,在 2018 年已经成为现实。
SQuAD(Stanford Question Answering Dataset)是行业内公认的机器阅读理解领域的顶级水平测试,被誉为机器阅读理解领域的 ImageNet。它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过 500 篇的维基百科文章。机器在阅读数据集内的文章后,需要回答若干与文章内容相关的问题,并通过与标准答案的比对,得到精确匹配(Exact Match)和模糊匹配(F1-score)的结果。
在最新榜单中,包括腾讯、科大讯飞在内的中国研究团队也有着不俗表现,成绩取得了相应的大幅提升。科大讯飞与哈工大联合实验室(HFL)、微软都曾经刷新过 SQuAD 的纪录,雷锋网 AI 科技评论也曾做过相关报道。
机器阅读理解技术拥有广阔的应用场景,比如在精准问答上能为用户提供极大的帮助;另外,它也能推动很多 NLP 相关领域的进步,如知识的表示、上下文篇章理解、知识推理等。
阿里巴巴自然语言处理首席科学家司罗表示,未来希望能向终极目标迈进,即机器真正对通用内容「能理解会思考」。
据了解,阿里巴巴 iDST NLP 团队在本次 SQuAD 的榜单上获得第一,主要得益于其提出的「基于分层融合注意力机制」的深度神经网络模型。这一模型能够模拟人类在阅读理解中所产生的行为,包括审题、带着问题阅读文章,对文章进行标注等。
这样一来,模型能够在找寻问题与文章关联的同时,借助分层策略,逐步集中注意力,使答案边界清晰;另外,采用「融合方式将全局信息加入注意力机制」,以确保关注点正确。
这一技术实际上已被应用于阿里巴巴内部,例如顾客在双十一期间对活动规则进行咨询,阿里小蜜通过机器阅读理解技术,帮助顾客进行相关问题的解答。又如,这一技术能够帮助顾客阅读商品详情页,智能提取信息,为顾客直接解答基础问题等。
MSRA 副院长、自然语言计算组负责人周明博士也第一时间对研究院的优秀成绩表示祝贺:「祝贺中国的自然语言理解研究已经走在世界前列!整个领域的进步需要大家共同的努力和投入来推动。自然语言处理长路漫漫,让我们共勉。」
关于 MSRA R-NET 的技术细节,可以理解为一个多层的网络结构,对整个阅读理解任务的算法进行建模。具体包括如下步骤:
阅读文章及审题:最底层做表示学习,采用多层的双向循环神经网络,给问题和文本中的每一个词做一个表示,即深度学习里的向量。
寻找问题与文中内容的关联,综合全文进行验证:通过注意力机制(attention),将问题中的向量和文本中的向量做一个比对,找出问题和哪些文字比较接近。然后,再将结果放在全局中比对。
精筛,选出正确答案:针对挑出的答案候选区中的每一个词汇进行预测,哪一个词是答案的开始,到哪个词是答案的结束。这样,系统会挑出可能性最高的一段文本,最后将答案输出出来。
整个过程就是一个基于以上层面的神经网络的端到端系统(见下图)。
关于 R-Net 的详细内容,可参考 AI 科技评论往期文章《从短句到长文,微软研究院如何教计算机学习阅读理解?》。
更多精彩内容,敬请关注雷锋网 AI 科技评论。