雷锋网 AI 开发者按:1 月 10 日,北京智源人工智能研究院联合知乎、数据评测平台 biendata 举办的「2019 智源·知乎看山杯专家发现算法大赛」正式收官。
大赛颁奖仪式暨算法交流会在清华大学 FIT 大楼多功能厅举行,北京智源人工智能研究院副院长、清华大学计算机系副主任、教授唐杰,知乎技术副总裁李大任出席了该仪式,并为获奖选手颁发了获奖证书。清华大学计算机系长聘副教授、智源学者刘知远,清华大学计算机系副教授、博士生导师张敏以及知乎算法团队负责人孙付伟作为演讲嘉宾也出席了活动。
获奖者合影 图片来源:知乎
截至 2019 年 1 月,知乎已拥有超过 2.2 亿用户,每天将产生海量的提问。为了让内容和用户更高效、精准地匹配,因此,「知乎专家推荐系统」也即「问题路由推荐系统」应运而生。「2019 智源·知乎看山杯专家发现算法大赛」的主题也源于该推荐系统。
知乎路由工作机制 图片来源:知乎
比赛旨在从选手中征集高效精准的推荐算法,挖掘有能力且感兴趣的用户进行问题的精准推荐。从 2019 年 9 月正式启动,比赛一共吸引了 711 支来自全球各个院校以及工业界的算法挑战队伍参与,参赛者达到 1631 人。
问题路由推荐系统每日对 10 万+的问题进行分发,并保证问题提问后 3 日内的解答率达到 70% 以上;系统对千万级的创作群体进行精准推荐,经由系统智能分发推荐下每日产生的回答数超过 20 万。
知乎问题路由内部实践形式 图片来源:知乎
同时,相比国外的 ImageNet、Gigaword 等高质量数据集,中文互联网相关的高质量数据集是相对缺乏的;而知乎累积了非常多的高质量文本语料和其他各种各样的数据,正好弥补了这一空缺。
此次比赛,知乎从数据平台中选出了一个月的邀请数据作为训练数据,并开放近 200 万用户和 1000 万邀请数据的 Link prediction 大型数据集(数据集均已脱敏)。
各个参赛团队围绕赛题「问题路由推荐系统」,并充分利用开放的 Link prediction 大型数据集不断进行算法改进与优化。经过为期 3 个月的激烈角逐,最终 7 支队伍脱颖而出,获得大赛奖金。
大赛主题海报 图片来源:知乎
其中,腾讯「test 团队」获得冠军,重庆邮电大学、华南理工大学、电子科技大学、广东工业大学组成的混合团队获得亚军,季军则由华南理工大学获得。清华大学计算机系副主任、系教授北京智源人工智能研究院副院长唐杰,知乎技术副总裁李大任为获奖选手颁发了获奖证书。
冠军
腾讯曹雄单人「test 团队」,获奖作品《特征工程在知乎推荐中的应用》。
通过抽取用户特征、问题特征、用户兴趣命中特征、问题统计特征、用户行为特征,融合 LightGBM 模型和 DeepFM 模型进行训练,得到最终的预测结果。
北京智源人工智能研究院副院长、清华大学计算机系副主任、唐杰教授为冠军获奖者颁奖 图片来源:知乎
亚军
电子科技大学章凡、广东工业大学刘岱远、华南理工大学叶青照、重庆邮电大学林智敏组成的「Conquer 团队」,获奖作品《多模式专家发现算法》。
针对知乎 app 对问题寻找最佳匹配的专家回答任务,提供了一个多模式的解决方案。其中,对于特征工程考虑了全局特征,时间滑窗特征,匹配特征,句嵌入特征,图特征,排序特征,Word2vec 等;对于模型,针对赛题的设计并修改了多种模型,最后进行融合,其中包括:LightGBM,CatBoost,Multi-ESIM,DSSM,LSTUR。
知乎技术副总裁李大任为亚军团队颁奖 图片来源:知乎
季军
华南理工大学的陈雄君、陈垂泽、黎潇潇组成的「MemoryError 团队」,获奖作品《基于用户画像和文本信息的问题推荐策略》。
基于用户画像和文本信息对新问题进行用户推荐,高效地将用户新提出的问题邀请其他用户进行解答,以及挖掘用户有能力且感兴趣的问题进行邀请下发,优化邀请回答的准确率,提高问题解答率以及回答生产数。
清华大学计算机系副教授、博士生导师张敏为季军团队颁奖 图片来源:知乎
作为一家知识内容平台,知乎同样重视技术创新价值的挖掘。自 2016 年引入机器学习技术以来,知乎已经将人工智能、算法技术应用到社区内容和产品体验的各个环节中。目前,知乎算法团队已经搭建了一套基础生态体系,通过算法实现了用户画像、内容分析、内容个性化推送等,其效率比过去的人工运营方式提高了数十倍。
北京智源人工智能研究院副院长、清华大学计算机系副主任、教授唐杰在颁奖大会上表示,北京人工智能研究院采用新的科研组织形式和人才引进培养模式,推动人工智能发展方向和理论、方法、工具、系统等方面的关键性突破。2019 年智源先后组织了 10 次竞赛,本次比赛是智源 2019 人工智能大赛的任务之一。
北京智源人工智能研究院副院长、清华大学计算机系副主任、教授唐杰 图片来源:知乎
随后,知乎技术副总裁李大任表示,此次与智源联合举办算法比赛,一方面是为了吸引人工智能算法领域从业者和爱好者加入,产出更多技术成果。另一方面,知乎也希望通过比赛开放部分数据,为国内人工智能发展提供一些助力。接下来,知乎还将在开放数据方面做更多努力。
知乎技术副总裁李大任 图片来源:知乎
在这之后,本次大赛颁奖现场随即展开了一场产学研融合的技术分享会。来自清华大学计算机系长聘副教授、智源学者刘知远,清华大学计算机系副教授、博士生导师张敏以及知乎算法团队负责人孙付伟均围绕推荐算法发表了相关的主题演讲,为在场的学术青年们解析了推进算法背后的难点与优化切入点,现场提问不断,学术氛围非常浓厚。
图片来源:知乎
大赛官网地址:
雷锋网 AI 开发者 雷锋网