搜狗搜索联合清华首战NTCIR13-STC2，以绝对优势排名第一

作者：奕欣

2017/09/06 11:51

雷锋网 AI 科技评论消息，近日第十三届 NTCIR 评测比赛正式公布了短文本对话任务（STC2）的赛果。搜狗搜索联合清华大学计算机系组成的 SG01 战队首度参战，在 NTCIR13-STC2 评测比赛中以绝对优势排名第一。

NTCIR Workshop是一个针对信息访问（IA）技术（包括信息检索、问题回答、文本摘要、提取等）的评估比赛。最早由日本学术振兴会（JSPS）和国立情报学研究所（NACSIS）联合赞助，并于1998年开始筹备，并最终在1999年成功举办首届workshop。

经过发展，NTCIR逐渐发展成为一项国际重要赛事，通过设置一系列基于中文、英文、日文三种语料的评测任务，目前NTCIR评测比赛已经举办至第十三届。

雷锋网 AI 科技评论根据资料了解到，在 2016 年，第十二届 NTCIR 中首次设置了基于中文、日文两种语料的评测新任务，即短文本对话任务（STC），这也是目前国际上唯一的“开放域”对话方面的评测比赛。

而其中的短文本对话任务NTCIR13-STC2，在继检索模型对话任务后，首次引入基于深度学习的生成模型对话的任务设置。雷锋网AI科技评论了解到，本次比赛的主要目的是想将IR、NLP与深度学习研究者联合起来，一同解决自然语言对话，在分享最新研究成果的同时对相关议题进行探讨，共同规划可能有的合作空间。

据雷锋网 AI 科技评论了解，本次赛事共分为两个子任务。在检索任务中，研究者需要基于微博作为中文语料（或 Twitter 作为日语语料），并针对给定的一条新微博，通过给定的以往评论知识库检索到对应的连贯且有效的评论。

搜狗搜索联合清华首战NTCIR13-STC2，以绝对优势排名第一

每个团队都会提前拿到知识库，此外：

1）在训练阶段，参赛团队可以根据 IR 技术构建自己的会话系统，使用给定的评论作为训练数据。
2）在测试阶段，每个团队都有100个测试查询（帖子），这些帖子并不在原有的知识库中。每个团队需要为每个查询提供十个结果（评论）的列表。这些评论必须源于知识库。
3）在评估阶段，所有参赛的结果汇总会以 0（不适当），1（适用于某些情况），2（适合）进行评分。此外，评委也会结合IR测试的标准（例如nG@1，nERR@10 和 P+）进行评估。

而在生成任务中，则是希望参赛团队能根据给定帖子生成流畅、连贯且有意义的评论。根据规定，这一任务采用与第一个任务相同的知识库。生成器可通过使用统计机器翻译（SMT）模型或基于 RNN 的神经模型进行建模，当然，参赛团队也可以使用其它 NLG 方法。

搜狗搜索联合清华首战NTCIR13-STC2，以绝对优势排名第一

1）在训练阶段，参与者可以通过评论知识库作为训练数据，建立自己的生成式对话系统。
2）在测试阶段，每个团队都有100个测试查询（帖子），这些帖子并不在原有的知识库中。每个团队被要求为每个查询提供十个生成结果（评论）的列表。评论不一定要源于知识库。
3）在评估阶段，所有参赛的结果汇总会以 0（不适当），1（适用于某些情况），2（适合）进行评分。此外，评委也会结合IR测试的标准（例如nG@1，nERR@10 和 P+）进行评估。

本次赛事共吸引了包括 BAT 等企业，以及北京大学、中国人民大学等多所知名高校参与，国内共有 11 家企业、29 所大学和研究所参加。最终，搜狗搜索联合清华大学计算机系组成的 SG01 战队，在 STC2 任务中官方指定的检索、生成两种方法上均位列第一名，且与第二名拉开显著差距。