雷锋网 AI 科技评论按:从1997年至今,KDD Cup已有二十年历史。日前,第23届KDD大会在加拿大召开,会上,KDD Cup2017优胜者将进行成果展示。
2017年8月13-17日,第23届KDD大会在加拿大哈利法克斯召开,雷锋网AI科技评论也在前线带来第一手报道。从7月到8月,围绕KDD,热点不断。先是加拿大西蒙弗雷泽大学计算机学院裴健博士当选ACM SIGKDD 新一任主席,紧接着,官方宣布裴健博士荣获 2017 SIGKDD 创新奖、香港科技大学教授杨强博士荣获 2017 SIGKDD 杰出服务奖。大会还没开始就吸引了不少目光。
当然,除了裴健博士和杨强博士的杰出表现,还有一个议程也让这届大会的关注量倍增——加拿大时间8月16日,KDD Cup2017优胜者将在会议上进行成果展示。由微软、美团联合北京航空航天大学的Convolution团队在KDD Cup 2017的两项任务中包揽第一。
两项任务的前三名名单如下:
KDD Cup迎来第二十年
从1997年举办至今,这届赛事已迎来第20个年头。作为目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,KDD Cup每年都会吸引世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛。它被誉为大数据领域的“奥运会”。
KDD Cup 2017 今年的任务是交通领域赛题,分两个任务:
Task 1: To estimate the average travel time from designated intersections to tollgates(预测车辆从路口到收费站的平均用时)
Task 2: To predict average tollgate traffic volume(高速收费站车流量预测)
赛程共计两轮,第一轮需要选手在20天内完成预测算法并提交测试结果,第二轮则会更换测试数据并要求选手在一周内完成新一轮的结果提交。
高速公路收费站是交通网络中众所周知的瓶颈。如果可以提前预测接下来一小时的交通拥堵状况,那么交通管理部门可以及时采取措施进行上游路口的流量诱导和控制。KDD Cup 2017希望参赛者可以设计一套预测交通流量和车辆到达时间的算法,用算法和数据来赋能交通领域,减少拥堵的发生。
2017年年初,KDD Cup组委会宣布采纳阿里云交通领域赛题时,曾有新闻报导:本次赛题源自阿里云人工智能ET在交通领域实施的案例之一,阿里云赛题负责人闵万里说,技术垂直化一直是阿里云的重要战略。在交通领域,我们打造了路况预测,信号灯优化控制一系列前沿项目,这些实践证明了本次赛题的技术可行性和业务实用性。
亮点之一:强应用背景
纵观KDD Cup历史,不只是2017,近年来,许多试题都有很强的应用背景。
2011年的主题是理解节奏韵律,预测音乐评分。比赛的数据集是雅虎音乐提供的超过1百万匿名用户的3亿条评分数据,这些评分分别针对歌曲、专辑、艺术家和音乐流派。比赛有两个任务,一是准确的预测用户的评分,二是区分用户喜爱的歌曲与其他歌曲。
2012年的任务一是根据腾讯微博中的用户属性、SNS社交关系、在社交网络中的互动记录等,来预测接下来最有可能被用户接受的推荐item列表。任务二是广告的点击率预估,提供用户在腾讯搜索的查询词、展现的广告信息、广告的相对位置和用户点击情况等,来预测后续时间用户对广告的点击情况。
连续两年,比赛的主题都为推荐系统。对用户而言,每天面对海量的资讯服务信息时,如何快速找到自己感兴趣的内容是件耗费时间和精力的事情。对于企业而言,手握海量资源,如何挖缺数据中的潜在价值从而留住用户,也是一种极大的挑战。个性化推荐系统则是解决上述问题的有效工具。
2015年,KDD Cup的主题是预测学生在学堂在线这个全中国最大的慕课平台中的逃课率。MOOC在线学习平台上学生的逃课率极高,因此预测他们接下来是否会选择逃课将对保持和激励学生的学习积极性十分有益,参赛者需要基于用户个人行为预测接下来10天内他们的逃课几率。
知乎上多名网友认为,2015年的比赛题目“挺有意思,也比较有实际意义”,有网友认为这个题目的设置跳脱了推荐大框架的桎梏,更具创新性。
此外,教育部于2015年4月出台《关于加强高等学校在线开放课程建设应用与管理的意见》时曾表明,教育部正密切关注世界范围内迅速兴起的大规模在线开放课程(MOOC)等新型在线开放课程的发展,将积极推动大规模在线开放课程与高等教育教学改革的大讨论。
亮点之二:国内企业越来越多的参与
当然,除了试题的纵深应用,盘点近几年比赛的承办方,国内企业出现的频率也越来越高。
上文就已经提到,2017年的比赛由阿里云承办。阿里云创立于2009年,隶属于阿里巴巴集团。从诞生到现在,阿里云目前覆盖欧洲、中东、日本和澳洲,本月4号,阿里云刚刚与澳门政府签署合作城市大脑计划。值得一体的是,阿里巴巴集团也是今年KDD大会的白金赞助商。
2014年的比赛由学堂在线(Xuetangx.com)承办。学堂在线是以清华大学计算机科学与技术系为主体的开发团队基于OpenEdX平台开发的,于2013年10月10日正式上线,可向全球用户提供MOOC课程。2015年5月,清华大学宣布依托学堂在线启动国内首个基于混合式教学模式的学位项目——“数据科学与工程”专业硕士项目。目前,学堂在线已是教育部在线教育研究中心的研究交流和成果应用平台。
而2012年的KDD CUP则由腾讯协办,试题也是基于腾讯微博海量的数据集。目前腾讯两个垄断性的社交工具——微信、QQ中,庞大的用户基数与海量的数据,都有待去慢慢挖掘和利用。
上图来自于网络,从中可以看出,2005-2010年的举办方中,还没有出现过中国企业的身影。
这一系列承办团队也从一个方面印证了国内企业的科研实力越来越强。据业内人士介绍,赛事的承办者需提供极有前沿应用价值的赛题和大规模数据作为挖掘样本。换言之,要想承办这场“奥运会”,如果没有深厚的学术积累和行业实践,是完全不可能的。
亮点之三:中国团队越来越靠前的排名
除了看到国内企业越来越雄厚的实力,雷锋网AI科技评论也了解到,中国团队也接二连三拿到不俗的表现。
早在2004、2005连续两年,香港科技大学教授、IEEE Fellow杨强就引导其团队连续两年拿下KDD Cup比赛冠军。
2011年的任务一预测用户的评分中,上海交通大学的InnerPeace团队获得季军,2012年的任务一预测用户偏好item中,同样来自上海交通大学的ACMClass@SJTU 团队夺得冠军。
2015年的比赛冠军由多国军团——“the Intercontinental Ensemble”获得。在这支冠军队伍中,有两位中国的数据科学家,分别来自清华大学和网易公司。
而在2017年,中国团队更是几乎包揽前20名。
图为2017年KDD Cup得分排行榜
雷锋网AI科技评论总结:纵观KDD Cup20年的历史,2010年之前,鲜少出现国内企业和学界的身影,而在2010之后,腾讯、清华、阿里一个一个相继出现。此外,在比赛中,中国团队的影响力也与日俱增。