科大讯飞在机器阅读理解SQuAD比赛中夺得第一

2017/07/31 18:21

雷锋网7月31日消息近日，在最近一场由斯坦福大学发起的SQuAD（Stanford Question Answering）挑战赛中，科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一，打败了包括微软亚洲研究院、艾伦研究院、IBM、Salesforce、Facebook、谷歌以及卡内基·梅隆大学、斯坦福大学在内的全球学术界和产业界的研究团队，这是中国本土研究机构首次取得该赛事的第一名。

科大讯飞在机器阅读理解SQuAD比赛中夺得第一

科大讯飞在最新一次SQuAD（Stanford Question Answering）挑战赛中夺得第一（图/雷锋网）

据雷锋网了解，SQuAD挑战赛被誉为“机器阅读理解界的ImageNet”，来自全球产业界和学术界的顶尖团队都有参与其中，如艾伦研究院、IBM、Salesforce、Facebook、Google、微软研究院，以及CMU和斯坦福大学等。

SQuAD机器阅读理解挑战赛的具体运行过程是这样的。该比赛通过众包的方式构建了一个大规模的机器阅读理解数据集（包含10万个问题），可将一篇几百词左右的短文给人工标注者阅读，让标注人员提出最多5个基于文章内容的问题并提供正确答案；短文原文则来源于500多篇维基百科文章。参赛者提交的系统模型在阅读完数据集中的一篇短文之后，再来回答若干个基于文章内容的问题，然后与人工标注的答案进行比对，得出精确匹配（Exact Match）和模糊匹配（F1-score）的结果。

科大讯飞向雷锋网透露，这个比赛是一个持续性的挑战赛，参赛者可以进行调优提交。然后主办方再定期更新成绩。在该轮测试中，科大讯飞与哈工大联合实验室提交的系统模型——Interactive AoA Reader（基于交互式层叠注意力模型），精确匹配达77.845%，模糊匹配达85.297%，两项成绩均排名首位。

事实上，科大讯飞在机器阅读理解的研究很早就开始。2015年5月，哈工大讯飞联合实验室开始启动研究机器阅读理解技术，是国内较早启动该项研究的团队。后来其又启动内部项目 “六龄童阅读理解”，以期机器在认知智能上能达到六岁儿童的智力。

据科大讯飞透露，对机器阅读理解而言，其最大的难点在于：

“对机器来说，记忆海量知识并进行浅层推理，是一个相对较容易的工作，之前很多相关的工作证明了机器不比人类差，但精准的理解并实现推理，是一个相对更难的任务，为此目前全球最优秀的AI团队都在进行类似的研究。”

此前，机器阅读理解在研究领域也经常遇到以下两个难题：

1、数据问题：目前基于深度学习模型等统计方法的机器阅读理解，在研究上离不开大量的被人工标注的数据，但是固有的数据集则往往存在规模较小、质量不佳等问题。这种情况下，很难基于这些数据量做出优秀、有效的模型。

2、算法问题：传统的NLP在做阅读理解或自动问答时，会采用分拆任务的方式将其分成问题分析、篇章分析、关键句抽取等一些步骤，但这种方法容易造成级联误差的积累，很难得到很好的效果。如，分目标的结果整合最后和终极目标不能完全吻合；局部优化不当可能造成研究进展缓慢等。

所以，目前在机器阅读理解领域中，则多采用完全端到端的神经网络建模，消除了分步骤产生的级联误差。除此之外，采用神经网络的方法能够通过大量的训练数据学习到泛化的知识表示，对篇章和问题从语义层面上高度抽象化。

据科大讯飞向雷锋网介绍，其在这一问题上也同样采用了端到端的神经网络模型，但把精力更多的放在如何能够模拟人类在做阅读理解问题时的一些方法。此次在测试中夺得第一的“Interactive AoA Reader”，其主要是根据给定的问题对篇章进行多次的过滤，同时根据已经被过滤的文章进一步筛选出问题中的关键提问点。通过“交互式”地逐步精确答案的范围，该模型从而可得到不错的成绩。

科大讯飞在机器阅读理解SQuAD比赛中夺得第一

科大讯飞智能阅卷技术工作流程

科大讯飞向雷锋网透露，AoA Reader模型是其去年提出并在arXiv上预先放出并最终被ACL 2017录用为口头发表的长文。“针对SQUAD类型的任务，我们对该模型做了一定的改进，并称之为Interactive AoA Reader模型”。

那么，该模型后续还有继续优化的空间吗？科大讯飞方对此表示：

“虽然目前层出不穷的阅读理解模型逐步接近该数据集上人类的答题效果，但目前的数据集中大多数问题仍然没有达到需要“推理”的级别，对于机器阅读理解的“能理解会思考”的终极目标来说，现在还只是万里长征的开始。对自然语言的更深层次的归纳、总结、推理，一定是未来机器阅读理解不可缺少的部分。”

在雷锋网问及该模型预计什么时候被应用时，科大讯飞回应说：“机器阅读理解技术拥有广阔的应用场景，我们认为精准问答是一个重要的趋势，例如在产品信息的精准问答、使用手册的精准问答、基于司法电子卷宗的精准问答、病历的精准问答等上都会起到有力的支撑作用。同时，此技术的进步也会推动NLP很多相关领域的进步，如知识的表示、上下文篇章理解、知识推理等。”

目前，科大讯飞和哈工大联合实验室的研发成果已被逐渐运用在教育领域，如通过机器给考卷的主观题评分，从而达到辅助人工阅卷，减少人员投入，降低人工阅卷中疲劳、情绪等因素的影响，进一步提升人工阅卷评分的效率、准确性和公平性。

近几年，科大讯飞在智能阅卷技术上也一直在全国各中小学频设试点，并和一些教育机构牵手合作。如，2015年11月以前，科大讯飞就利用机器阅卷技术在安庆、合肥等地设立试点，经过对人机评分结果的分析，计算机在评分一致率、平均分差、相关度以及与仲裁分更接近的比例等指标方面都已达到或超过人工评分水平。而在今年的湖北省的中考中，襄阳市引进的智能评卷系统也来自科大讯飞的机器智能阅卷技术。