评测主页及具体的评测方案,请参见SMP 2018大会主页。
“第七届全国社会媒体处理大会(The Seventh China National Conference on Social Media Processing)”将于2018年8月2日—4日在哈尔滨召开。
全国社会媒体处理大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。
全国社会媒体处理大会每年举办一次,现已成为社会媒体处理的重要学术活动。第七届全国社会媒体处理大会(SMP 2018)由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学社会计算与信息检索研究中心承办。
本届SMP会议计划举办第二届中文人机对话技术评测(ECDT)。近年来,人机对话技术受到了学术界和产业界的广泛关注。学术上,人机对话是人机交互最自然的方式之一,其发展影响及推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展;产业上,众多产业界巨头相继推出了人机对话技术相关产品,如个人事务助理、虚拟情感陪护机器人、娱乐型聊天机器人等等,并将人机对话技术作为其公司的重点研发方向。以上极大地推动了人机对话技术在学术界和产业界的发展。
本届中文人机对话技术评测由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学、科大讯飞股份有限公司承办,讯飞公司提供数据,华为公司提供奖金。旨在促进中文人机对话系统相关研究的发展,为人机对话技术相关的学术研究人员和产业界从业人员提供一个良好的沟通平台。在此,评测会务组诚邀各个单位参加本次人机对话技术评测活动!
本届人机对话技术评测主要包括两个任务,参赛者可以选择参加任意一个任务或全部任务。
在人机对话系统的应用过程中,用户可能会有多种意图,相应地会触发人机对话系统中的多个领域(domain) ,其中包括任务型垂直领域(如查询机票、酒店、公交车等)、知识型问答以及闲聊等。因而,人机对话系统的一个关键任务就是正确地将用户的输入分类到相应的领域(domain)中,从而返回正确的回复结果。
【用户意图领域分类示例】
1) 你好啊,很高兴见到你! — 闲聊类 2) 我想订一张去北京的机票。 — 任务型垂类(订机票) 3) 我想找一家五道口附近便宜干净的快捷酒店 — 任务型垂类(订酒店) |
【评测说明】
评测任务1包含闲聊和垂类两大类,其中垂类又细分为30个垂直领域。本次评测任务1中,仅考虑针对单轮对话用户意图的领域分类,多轮对话整体意图的领域分类不在此次评测范围之内。
【评测方式】
开放式评测:
参赛者可以开放地获取除主办方提供的数据之外的训练及开发数据。评测时,主办方给定测试集,并运行参赛系统,在测试集上面得出评测结果。
【评价指标】
准确率(P)、召回率(R)及F值。
针对特定域的任务型人机对话系统,人工实时在线对话交互及评价能够反映系统对于用户意图响应的性能以及用户真实的满意度。因此,本次评测任务2为面向特定领域的任务型人机对话在线评测。
【评测说明】
本次评测任务2的特定领域包括:机票类、火车票类、酒店类3个垂直领域,系统通过与测试人员实时在线对话完成相应的预定或查询任务,满足测试人员的需求。
【注】针对2018年ECDT任务二参评单位的评测情况,给出以下建议:
1.认真考虑一句意图存在连续的若干意图,如"帮我预定一张从北京出发到重庆的4月18号的机票,再预定重庆到成都的火车票一张,再预定成都的向日葵酒店公寓一晚。"此类意图在评分过程中占有更大的分数比例。
2.认真考虑资源库外的属性、属性值的判定情况,例如,假设资源库中没有的属性WI-FI,但测试人员询问"有没有wifi提供?";假设资源库只覆盖未来10天的机票信息,但测试人员订一个月以后的票。
3.测试人员在测试过程中,会根据"好的,已经帮您预订XXX"等类似的字样判断对话结束,故建议所有参赛者在搜索返回最终结果时,都要加上 明显的标示结束、跳转的语句,帮助测试人员作出明确的判断。
【特定域任务型人机对话示例】:其中U表示用户,R表示对话系统。
任务型对话示例1:
用户完整意图:预定下周四(2018年4月12日)从北京去上海的上午或者中午出发,价格低于8折的便宜机票。
U:下周从北京去上海 R:请问您需要订票吗? U:恩,是的 R:请问您要下周哪天出发呢? U:周四吧 R:帮您预订2018年04月12日从北京到上海的机票,请问有餐饮,价格等其他的要求吗? U:尽量订上午的吧,价格找便宜一点的 R:帮您查询了2018年04月12日从北京到上海的机票,没有上午出发的航班,中午12:10出发是否可以?7.3折,910元 U:也行,就订这个吧 R:即将帮您预订2018年04月12日从北京到上海的机票,南方航空,CZ6412 空客321(中),12:10:00出发,7.3折,910元,不可退改签,确定要订票吗? U:是的 R:已经帮您预订该航班机票,将跳转至付款页面 |
任务型对话示例2:
用户完整意图:预定明天(2018年4月10日),丽江古城区附近的一家酒店,价格不超过200元每晚。
U:我想预定丽江古城区附近的酒店 R:请问您想哪天入住呢? U:明天吧 R:请问您对价格有要求吗? U:别太贵,每晚200元以下吧 R:2018年04月10日入住,丽江古城区附近,价格200元以下的酒店,为您找到以下结果(与用户意图最相关的5个酒店结果),请问您想预定哪一个? U:就这个丽江古城联强酒店吧 R:好的,已经帮您预订丽江古城联强酒店,2018年04月10日入住。 |
任务型对话示例3:
用户完整意图:查询明天(2018年4月10日)从哈尔滨到北京的晚间软卧火车票信息,上下铺均可。
U:到北京的软卧火车票还有吗? R:请问您要从哪里出发? U:哈尔滨 R:您要定哪天的呢? U:明天吧 R:请问您对发车时间有要求吗? U:晚上的,正好能睡一觉 R:请问您要上铺还是下铺呢? U:都行 R:您要查询的2018年04月10日 晚间出发从哈尔滨到北京的软卧火车票信息如下(与用户意图最相关的5个火车票查询结果) |
任务型对话示例4:
用户完整意图:预定2018年4月10日从哈尔滨到北京的上午的航班或火车,价格低于500元,同时预定2018年4月10日五道口附近300-400元的快捷酒店一晚。
U:查一下明天从哈尔滨到北京的机票 R:请问您要什么舱位? U:经济舱 R:您要上午,下午,晚上哪个时间段出发? U:上午吧 R:有一个上午6:25出发的南方航空CZ6421的航班,5.8折,不含税价720,请问您要预订此航班机票吗? U:有点贵啊,不订机票了,看看火车票吧 R:2018年4月10日从哈尔滨到北京,上午的火车车次信息如下(与用户意图最相关的5条火车车次信息),请问您要预定哪一个车次?几等座? U:D26,二等座吧 R:即将帮您预定2018年4月10日从哈尔滨到北京,D26次列车二等座。 U: 好的,再帮我找找北京五道口附近的快捷酒店吧 R:请问您哪天入住?住几晚? U:明天入住,一晚。 R:请问您对房间价格有要求吗? U:别超过400元一晚 R:以下是2018年4月10日入住,五道口附近的快捷酒店信息(与用户意图最相关的5个快捷酒店信息),请问您想预定哪一个? U:第一个吧 R:即将预定2018年4月10日入住一晚,五道口附近,汉庭酒店(清华东门店)标准间一间,每晚377元,请问您确认要预定吗? U:确认 R:已经帮您预订该酒店,将跳转至付款页面 |
【评测方式】
任务2采用人工评价的方式,对于每个参赛系统,主办方提供给测试人员完整的用户意图描述,对于任意相同的用户意图描述,对不同的参赛系统均给定相同的首轮对话输入,启动在线评测,评测过程中评测员根据给定的完整意图描述与参赛系统进行交互,直至对话结束。对话结束的条件为系统返回所有任务(单任务或多任务)的执行结果(出于对模拟终端设备显示区域大小限制的考虑,单任务的多条结果只显示相关性最高的前5条),或超过50个对话轮数之后仍未返回测试员所需的结果,测试员手动结束对话测试。
【数据】
1) 完整的用户意图描述示例 2) Json格式的静态航班、酒店、火车票数据资源 |
【评价指标】
1) 任务完成率 2) 用户满意度 3) 回复语言的自然度 4) 对话轮数 5) 静态的数据库资源未覆盖情况的引导能力 |
举例来说,如果当前只支持查询十日航班,那么当查到十日之外信息时,是否能友好引导。
【注】:除"对话轮数"之外,以上指标均由人工给出评分。
本次评测对于上述两个任务分别比赛及排名,并根据每个任务的最终评测结果分别取前三名进行奖励,总奖励金额5万元人民币。
任务1: 第一名8000元,第二名5000元,第三名4000元。
任务2: 第一名15000元,第二名10000元,第三名8000元。
【注】由SMP2018主办方中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)为参评队伍提供成绩证书认证。
以下所有时间点为北京时间(GMT+8)11:59 PM。
(除报名时间以外,其他时间点可能会有变动,请注册参加者密切关注评测网站以及邮件通知。)
事件 | 时间 |
预报名 | 2018年4月1日-4月10日 |
正式报名 | 2018年4月11日-4月30日 |
发布训练及开发集 | 2018年5月1日 |
系统搭建及调整 | 2018年5月2日-7月12日 |
任务1系统提交及测试 | 2018年7月13日 |
任务2在线测试及结果评价 | 2018年7月14日-7月16日 |
技术报告撰写 | 2018年7月17日-7月31日 |
SMP2018大会期间召开ECDT研讨会及颁奖典礼 | 2018年8月2日-8月4日 |
注册报名:有意向参加的单位机构请点击“注册报名”,填写报名表后提交即可。
评测委员会
主席: 张伟男(哈尔滨工业大学)
委员: 陈志刚(科大讯飞股份有限公司)、车万翔(哈尔滨工业大学)、芮祥麟(华为公司)
主办方:中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)
承办方:哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)、科大讯飞股份有限公司(iFLYTEK)
赞助方:华为公司
联系方式:如果有任何与本次评测相关的问题,请随时联系会务组。
评测会务组邮箱:smp2018ecdt@126.com
相关文章:
国内首届中文人机对话技术评测赛果出炉,两项任务冠军团队都分享了哪些技术细节?|SMP 2017
大数据时代社会科学在发生巨变,六年来SMP如何基于兴趣驱动促进学科发展? | SMP 2017