全国社会媒体处理大会(SMP)由中国中文信息学会社会媒体处理专委会主办,专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。第七届全国社会媒体处理大会(SMP 2018)将于8月2日至4日在哈尔滨召开。
本届会议将并行举办三个技术评测竞赛单元:
用户画像技术评测(The Evaluation of User Profiling Technology,SMP-EUPT)
中文人机对话技术评测(The Evaluation of Chinese Human-Computer Dialogue Technology,SMP-ECDT)
文本溯源技术评测(The Evaluation of Text Sourcing Technology,SMP-ETST)
随着机器创作能力越来越强,今后社会媒体上将会产生越来越多的机器创作者自动生产的内容。有效识别出哪些是人类作者生产的内容,哪些是机器作者生产的内容,对于媒体内容的审核、分发、推荐等,具有十分重要的意义。
本届用户画像技术评测聚焦于媒体内容创作者画像问题,由北京字节跳动科技有限公司(今日头条)提供丰富的媒体内容数据集,进行作者身份的自动识别。
人机对话技术近年来受到了学术界和产业界的广泛关注。学术上,人机对话是人机交互最自然的方式之一,其发展影响并推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展;产业上,众多产业界巨头相继推出了人机对话技术相关产品,如个人事务助理、虚拟情感陪护机器人、娱乐型聊天机器人等等,并将人机对话技术作为其公司的重点研发方向。
本届中文人机对话技术评测将聚焦于用户意图的识别和响应问题,以科大讯飞股份有限公司提供的数据集为基础,分别开展用户意图领域分类和特定领域任务型人机对话在线评测。
文本溯源的目标是判断一个文本的内容是否复制或改编于另外一个或者多个文件。文本溯源技术在学术诚信检测、搜索引擎优化等领域有广泛应用。
本届文本溯源技术评测以科研立项或成果创新型审查为应用背景,以著名的学术搜索系统 AMiner 提供的大量中文论文摘要数据为基础,进行句子溯源技术评测。
评测单元 | 任务描述 |
用户画像 | 给定一个由若干媒体内容文档构成的数据集,参赛队伍采用适当的算法,对每篇文档的作者进行身份识别,区分出该文档属于人类写作、机器写作、机器翻译和机器自动摘要中的哪一类。 |
中文人机对话 | 任务 1:用户意图领域分类 在人机对话系统的应用过程中,用户可能会有多种意图,相应地会触发人机对话系统中的多个领域(domain),包括任务型垂直领域(如查询机票、酒店、公交车等)、知识型问答以及闲聊等。本任务的目标就是正确地将用户的输入分类到正取的领域(domain)中。 任务 2:特定域任务型人机对话在线评测针对特定域的任务型人机对话系统,人工实时在线对话交互及评价能够反映系统对于用户意图响应的性能以及用户真实的满意度。本任务的目标是面向特定领域的任务型人机对话在线评测。 |
文本溯源 | 本次文本溯源技术评测的任务是句子级的检测,即给定一批待查句子和一个源数据集,判断待查句子是否改编自源数据集中的句子,如果是则找出相应的源句子。句子改编的范畴包括但不限于:微修改、增加、部分删简、对文字表述进行概括、改变原有的排列顺序、关键词替换等。 |
用户画像技术评测数据集由今日头条提供,中文人机对话技术评测数据集由科大讯飞提供,文本溯源技术评测数据集由清华大学 AMiner 系统提供。所有数据集仅限于本次技术评测使用,未经许可不能用于任何其他目的和任何地方,不得汇编入其他数据集或数据库。如需将某数据集用于其他课题研究及发表论文,需与评测主办方联系取得许可后方可使用。
数据集的具体内容、范围、规模及格式以最终发布的真实数据集为准。
训练集用于模型的学习,验证集用于在线实时评估算法效果,评测集用于最终的效果评测。其中验证集和评测集的标签信息不公开发布,用于组委会进行在线实时评测和最终评测。
4 月 15 日:发布评测方案,开始报名
5 月 05 日:发布训练集
6 月 01 日:发布验证集,开始提交中间结果并发布周排行榜
6 月 30 日:停止提交验证集中间结果
7 月 01 日:发布评测集,提交最终评测结果(1 天之内完成)
8 月 04 日:技术评测论坛(揭晓获奖名单+颁奖+技术报告)
4 月 01 日:开始预报名
4 月 11 日:开始正式报名
5 月 01 日:发布训练及开发集
5 月 02 日:开始系统搭建及调整
7 月 13 日:提交任务 1 最终评测结果(1 天之内完成)
7 月 14 日:提交任务 2 最终评测结果(3 天之内完成)
8 月 04 日:技术评测论坛(揭晓获奖名单+颁奖+技术报告)
5 月 03 日:发布评测方案,开始报名
5 月 15 日:发布训练集
6 月 01 日:发布验证集,开始提交验证集中间结果
6 月 30 日:停止提交验证集中间结果
7 月 01 日:发布评测集,提交最终评测结果(1 天之内完成)
8 月 04 日:技术评测论坛(揭晓获奖名单+颁奖+技术报告)
评测单元 | 奖励 |
用户画像 | A. 奖金 一等奖 1 名:10000 元 二等奖 2 名:每名 5000 元 三等奖 3 名:每名 3000 元 B. 奖励 获奖者可获得直接面试今日头条 AI Lab 的机会 |
中文人机对话 | A. 任务 1 第 1 名:6000 元 第 2 名:4000 元 第 3 名:2000 元 B. 任务 2 第 1 名:10000 元 第 2 名:8000 元 |
文本溯源 | 一等奖 1 名:20000 元 二等奖 2 名:每名 10000 元 |
主办单位:中国中文信息学会社会媒体处理专业委员会
刘 挺 哈尔滨工业大学
唐 杰 清华大学
李 航 北京字节跳动科技有限公司(今日头条)
用户画像:
北京交通大学网络科学与智能系统研究所
北京字节跳动科技有限公司(今日头条)
中文人机对话:
哈尔滨工业大学社会计算与信息检索研究中心
科大讯飞股份有限公司(iFLYTEK)
文本溯源:
军事科学院军事科学信息研究中心
清华大学计算机系 AMiner 团队
蒋盛益 广东外语外贸大学
万怀宇 北京交通大学(用户画像)
张伟男 哈尔滨工业大学(中文人机对话)
蔡 超 军事科学院军事科学信息研究中心(文本溯源)
用户画像 | 李 磊 北京字节跳动科技有限公司 沙 灜 中国科学院信息工程研究所 周 浩 北京字节跳动科技有限公司 |
中文人机对话 | 车万翔 哈尔滨工业大学 陈志刚 科大讯飞股份有限公司 |
文本溯源 | 邓志鸿 北京大学 齐浩亮 黑龙江工程学院 宋 驰 清华大学 周玉秀 军事科学院军事科学信息研究中心 |
相关文章:
【重磅开幕】SMP2018之第二届中文人机对话技术评测(ECDT)
国内首届中文人机对话技术评测赛果出炉,两项任务冠军团队都分享了哪些技术细节?|SMP 2017
大数据时代社会科学在发生巨变,六年来SMP如何基于兴趣驱动促进学科发展? | SMP 2017