就在几小时前,斯坦福大学NLP组发推称,微软在昨天提交了一次SQuAD的测试成绩,重新夺回了该数据集测试榜单第一的位置。
在今年7月份,科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一,这也是中国本土研究机构首次取得该比赛的冠军。当时科大讯飞北京研究院院长王士进博士告诉雷锋网,SQuAD的成绩刷新得很快,基本两周或者一个月就会被刷新一次(参见雷锋网文章:《专访科大讯飞:成为世界第一,只是阅读理解系统万里长征的第一步》)。
SQuAD(Stanford Question Answering Dataset)是行业内公认的机器阅读理解领域的顶级水平测试,被誉为机器阅读理解领域的ImageNet。SQuAD与ImageNet具有诸多共同点:都是各自领域的顶尖测试集,负责人都是斯坦福的新锐青年学者,都得到了工业界和学术界的青睐。
在ImageNet负责人李飞飞在今年IJCAI大会上的《ImageNet:Where we have been,Where we are going》演讲中,李飞飞曾提到这样一个细节:ImageNet团队试图在 2014 年结束竞赛的一个子项目,但却遭到了来自Google、Facebook 等公司的阻力,因为“产业界非常喜欢这个基准”,同样,SQuAD也很讨产业界的喜欢,参赛者包括来自微软总部及微软亚洲研究院、Salesforce、科大讯飞、谷歌以及卡内基·梅隆大学、复旦大学等知名企业研究机构和高校,目前在排行榜上,前三名均来自产业界。
SQuAD数据集刚刚进入第二个年头,目前精确匹配(Exact Match)和模糊匹配(F1-Score)的结果在80%左右,从正确率看大致相当于ImageNet在2012年到2013年的水平,但从难度看,SQuAD要略高于ImageNet:人类在ImageNet测试的错误率在4%左右,而SQuAD人类的精确匹配和模糊匹配错误率分别在18%和9%左右。此外CNN 对模式分类非常适合,其最初就是为识别二维形状而特殊设计的,而在阅读理解领域,虽然大家都在使用深度学习,但始终缺乏像2012年在ImageNet上横空出世的AlexNet这样的突破。
科大讯飞北京研究院院长王士进博士告诉雷锋网,目前成绩较好的队伍基本都采用的是模型融合(ensemble)的方式,即对于问题提出不同的模型,然后对这些模型进行一个融合,而在融合的过程中,对模型的选型,即如何选择更优秀、鲁棒性更好的模型至关重要。
但雷锋网也注意到,使用好的单一模型取得的成绩与模型融合相差不大,微软AI研究院在这个月提交的一个单模型测试结果就得到了第五名的成绩。由于模型融合会增大对应的计算量,最终工业界是否会对正确率和消耗的资源进行平衡,开发一款“经济实用型”的产品还未为可知。
但工业界会永远为每一个零点零几的提升而努力。“我们技术上最近有一些升级,预计近期会更新一次结果。”王士进告诉雷锋网。