雷锋网 AI 科技评论消息,近日第十三届 NTCIR 评测比赛正式公布了短文本对话任务(STC2)的赛果。搜狗搜索联合清华大学计算机系组成的 SG01 战队首度参战,在 NTCIR13-STC2 评测比赛中以绝对优势排名第一。
NTCIR Workshop是一个针对信息访问(IA)技术(包括信息检索、问题回答、文本摘要、提取等)的评估比赛。最早由日本学术振兴会(JSPS)和国立情报学研究所(NACSIS)联合赞助,并于1998年开始筹备,并最终在1999年成功举办首届workshop。
经过发展,NTCIR逐渐发展成为一项国际重要赛事,通过设置一系列基于中文、英文、日文三种语料的评测任务,目前NTCIR评测比赛已经举办至第十三届。
雷锋网 AI 科技评论根据资料了解到,在 2016 年,第十二届 NTCIR 中首次设置了基于中文、日文两种语料的评测新任务,即短文本对话任务(STC),这也是目前国际上唯一的“开放域”对话方面的评测比赛。
而其中的短文本对话任务NTCIR13-STC2,在继检索模型对话任务后,首次引入基于深度学习的生成模型对话的任务设置。雷锋网AI科技评论了解到, 本次比赛的主要目的是想将IR、NLP与深度学习研究者联合起来,一同解决自然语言对话,在分享最新研究成果的同时对相关议题进行探讨,共同规划可能有的合作空间。
据雷锋网 AI 科技评论了解,本次赛事共分为两个子任务。在检索任务中,研究者需要基于微博作为中文语料(或 Twitter 作为日语语料),并针对给定的一条新微博,通过给定的以往评论知识库检索到对应的连贯且有效的评论。
每个团队都会提前拿到知识库,此外:
1)在训练阶段,参赛团队可以根据 IR 技术构建自己的会话系统,使用给定的评论作为训练数据。
2)在测试阶段,每个团队都有100个测试查询(帖子),这些帖子并不在原有的知识库中。每个团队需要为每个查询提供十个结果(评论)的列表。这些评论必须源于知识库。
3)在评估阶段,所有参赛的结果汇总会以 0(不适当),1(适用于某些情况),2(适合)进行评分。 此外,评委也会结合IR测试的标准(例如nG@1,nERR@10 和 P+)进行评估。
而在生成任务中,则是希望参赛团队能根据给定帖子生成流畅、连贯且有意义的评论。根据规定,这一任务采用与第一个任务相同的知识库。生成器可通过使用统计机器翻译(SMT)模型或基于 RNN 的神经模型进行建模,当然,参赛团队也可以使用其它 NLG 方法。
1)在训练阶段,参与者可以通过评论知识库作为训练数据,建立自己的生成式对话系统。
2)在测试阶段,每个团队都有100个测试查询(帖子),这些帖子并不在原有的知识库中。每个团队被要求为每个查询提供十个生成结果(评论)的列表。评论不一定要源于知识库。
3)在评估阶段,所有参赛的结果汇总会以 0(不适当),1(适用于某些情况),2(适合)进行评分。 此外,评委也会结合IR测试的标准(例如nG@1,nERR@10 和 P+)进行评估。
本次赛事共吸引了包括 BAT 等企业,以及北京大学、中国人民大学等多所知名高校参与,国内共有 11 家企业、29 所大学和研究所参加。最终,搜狗搜索联合清华大学计算机系组成的 SG01 战队,在 STC2 任务中官方指定的检索、生成两种方法上均位列第一名,且与第二名拉开显著差距。