北京时间8月16日(美国当地时间8月15日),在加拿大哈利法克斯举行的第23届国际数据挖掘大会(KDD 2017)进入主会议程。KDD China在大会第一天的主会议程中组织“Data Science in China at KDD 2017”的分论坛,集中展现中国在数据挖掘领域的进展和华人在该领域的研究成果,雷锋网作为特约媒体参加论坛并进行了独家报道。
前一天开幕式上显示的数据表示,在KDD 2017大会上,来自中国的参会者仅次于美国。在开幕式上的颁奖仪式中,不仅裴健教授、杨强教授分获KDD创新奖和KDD杰出服务奖两项分量最重的大奖,中国队伍还几乎包揽了KDD CUP两个竞赛题目的前十名。此外大会的“与大咖面对面”的现场交流活动中,五位嘉宾有三位是华人,大会的开场Keynote也由UC Berkeley的Bing Yu教授演讲,雷锋网再次感受到了数据挖掘领域崛起的华人力量。
在大会颁发的资料中,雷锋网还发现了这样一个有趣的统计:Microsoft Research对近5年KDD高影响力作者进行了一个评估,如下图所示,其中泡泡大小代表发表文章的数量,纵轴反映了论文作者在KDD发表的每篇文章引用数排名(代表文章的质量),横轴是把不同作者论文的引用关系连城一个异构网络,再用类似pagerank的方法计算每个作者的影响力,越靠近右上角排名越高。从图中我们可以看到多位华人学者名字,占到了图中高影响力作者的半壁江山。
(来源:大会资料 & Microsoft Research)
大牛云集:八位演讲嘉宾,37万引用
“Data Science in China at KDD 2017”论坛由China Chapter of ACM SIGKDD(KDD China)承办。KDD China秘书长郑宇表示,这是KDD大会上连续第三年举办中国主题的分论坛。论坛邀请了八位来自数据挖掘领域杰出的华人教授、科学家以及工业界精英进行了精彩的报告,ACM数据挖掘领域的三位Fellow韩家炜教授(2003)、刘兵教授(2015)、裴健教授(2015)也来到现场,其中刘兵教授主持了第一个议程,裴健教授进行了报告。
在微软亚洲研究院主任研究员、KDD China 秘书长郑宇博士的主持下,分论坛在下午1:30开始。杨强教授致开幕词并回顾了KDD在中国的发展历史。他说,AI在中国和数据库在中国都是热门领域,但KDD相对来说知道的人却没有那么多。回想1989年 KDD第一次在中国开workshop到现在,有很多先行者为KDD在中国的发展做出了贡献。现在KDD China已拥有800名会员,在KDD上也展示了自己的力量,与包括郑宇、周志华等在内的KDD China管理团队努力分不开。杨强教授同样对两位SIGKDD华人主席刘兵、裴健以及KDD 2017大会主席俞诗鹏对KDD China工作以及本次分论坛召开的支持表示了感谢。
随后的论坛分两个议程进行。第一个议程由刘兵教授主持,杨强教授首先做了《Feature Engineering and Transfer Learning》(特征工程与迁移学习)的报告。杨强教授介绍,特征工程就是一个把原始数据转变成特征的过程,在典型的数据挖掘过程中,特征工程是选择数据之后的第二步,处于承上启下的重要位置。杨强教授指出,特征比模型更为重要,因为特征对于模型来说是中性的,这也是迁移学习的基础。杨强教授还详细介绍了将迁移学习与机器学习结合的应用,如将用户微信小额交易数据挖掘用于购车等大额消费的例子,在演讲最后的“Big Data is useless unless it can deliver big feature space”的总结也得到了随后多位演讲者的赞同。
(香港科技大学杨强教授)
随后来自罗格斯-新泽西州立大学的熊辉教授带来了题目为“Talent Analytics:Prospects and Opptunities”的报告,介绍了数据挖掘在在人力资源及企业管理的应用,包括:利用数据对人才进行评价和意愿分析,以辅助升职考核、招聘等流程。熊辉教授称,企业人力资源的数据挖掘有三个层次,包括人、企业与文化层面,目前的主要研究工作集中在人的层面,下一阶段会继续对企业及文化层面进行研究。
(罗格斯-新泽西州立大学熊辉教授)
来自微软亚洲研究院主任研究员郑宇博士的报告题目为《Urban Computing——Urban Big Data Platfrom》。在报告中郑宇博士介绍了城市计算机城市大数据平台在市政规划工程中的应用,由于城市大数据存在大规模和变化性的特征,需要基于云的城市大数据平台进行处理,通过不断获取、整合和分析城市中多种异构大数据来解决城市所面临的挑战,通过人工智能来帮助改善公共交通。在报告中,郑教授还通过如流量预测、与贵阳市政府的合作、与基于共享自行车的自行车道规划及车辆管理等实际工作进行了详细介绍。
(微软亚洲研究院主任研究员郑宇博士)
论坛议程二由UCLA的王薇教授主持。今日头条科学家李磊博士介绍了今日头条的新闻机器人、写稿机器人等实际应用及在深度综合、语言生成、语言建模、深度学习QA系统CFO、面部识别方面的研究工作。
(今日头条科学家李磊博士)
滴滴研究院副院长叶杰平的演讲题目为《Intelligent Dispatch System》。叶杰平称,滴滴的核心是一个交易平台,匹配是滴滴业务中的关键问题,并介绍了滴滴在用户与司机的匹配从群发信息、定向推送、精确匹配的三个阶段,利用机器学习提高ETA准确率和预测目的地、推荐上车点等两个创新,以及大数据预测司机服务分值、提升用户体验等实践。
(滴滴研究院副院长叶杰平)
随后西蒙弗雷泽大学裴健教授带来了《Data Science & AI in China industry:some personal experience》的报告。报告从人工智能产业化以及将人工智能应用到传统行业出发,探讨如何解决供应链、制造业等等传统行业数据无法自动收集、复杂和非标准化的应用场景、技术问题难以转化成典型的AI问题等挑战,并结合了裴健教授与华为的合作为例进行详细介绍,包括基于华为内部供应链端到端优化,实现智慧化模型、风险控制、热线客服等,希望用AI改变整个生产流程等实践,并分享了作为学术研究者在最近一年来与华为合作的收获。另外,裴健教授也是本届KDD大会创新奖(2017 ACM SIGKDD Innovation Award)的获得者。
(西蒙弗雷泽大学裴健教授)
清华大学的唐杰博士介绍了AI和深度学习在慕课(MOOCs)教育中的应用。值得一提的是,KDD Cup 2015的竞赛题目“用大数据预测MOOCer是否会‘翘课’”就出自唐杰博士之手,这一报告也是其后续的相关研究,并展示了通过小木机器人做慕课助教与学员进行智能交互改善学习,以及利用LadFG提升预测准确率,提升慕课教育效果的实践。
(清华大学唐杰博士)
同样来自清华大学的崔鹏博士则带来了社会动力学中的建模问题的分享。由于人的行为机理的复杂性以及动态性,而传统机器学习方式类似黑盒,难以将社会动力学研究特征化,也难以做持续的预测,通过物理学模型及数据驱动相结合,已经可以构建一个关键统计指标和真实社交网络基本一致的社交网络,可以对社交网络信息传播进行准确的预测。
(清华大学崔鹏博士)
在第一个议程结束后,会议组织者与报告嘉宾合影留念。这张合影可谓珍贵:组织者和嘉宾中包含两位SIGKDD主席(刘兵@2013,裴健@2017)、两位KDD大会主席(杨强@2012,俞诗鹏@2017),六位KDD大会PC Chair(韩家炜@1996,刘兵@2008,杨强@2010,裴健@2012,王薇@2014,熊辉@2018),两位KDD创新奖获得者(韩家炜@2004,裴健@2017),三位KDD杰出服务奖获得者(裴健@2015,王薇@2016,杨强@2017) ,论文引用总数超过37万,可谓汇聚了华人数据挖掘领域的中坚力量。
照片后排左起: 清华大学副教授崔鹏、微软亚洲研究院主任研究员、KDD China秘书长郑宇、美国罗格斯-新泽西州立大学教授熊辉、美国亚利桑那州立大学教授刘欢、滴滴研究院副院长叶杰平、KDD 2017大会主席俞诗鹏、今日头条实验室科学家李磊、清华大学副教授唐杰;
前排左起:美国伊利诺伊大学芝加哥分校教授、SIGKDD前主席刘兵、美国伊利诺伊大学香槟分校教授韩家炜、香港科技大学教授、KDD China主席杨强、加拿大西蒙弗雷泽大学教授、SIGKDD现任主席裴健。
(雷锋网注:本次分论坛议程二的主持人,UCLA教授、本次KDD大会创新奖与KDD杰出服务奖提名主席、KDD 2016杰出服务奖得主王薇,因为在大会还有其他事务,在拍照后才赶到,因而不在本照片中)
随着大数据的不断积累以及计算能力的快速发展,与其相关的人工智能研究也得到了快速的发展。如同杨强教授在本次论坛上所言,数据挖掘的核心在于“挖掘”而非“数据”,在数据量暴增的同时,与之对应的数据选择、算法、特征工程也更重要,掌握学术前言趋势的学术界与掌握大量数据的产业界需要更紧密合作,推动数据挖掘与人工智能的发展。
雷锋网了解到,在诸多学术会议中,KDD属于学术与产业相结合较为紧密的会议之一。在本次分论坛上,多位嘉宾的报告内容均与产业紧密结合,让我们得以了解了学术界与产业界就大数据与人工智能话题技术的交流动向,以及大数据和人工智能的最新先锋应用。祝愿通过本次论坛的召开能够扩大华人在国际数据挖掘领域的影响力,推动国内数据挖掘领域的研究和在工业界的应用和发展。