11月,第32届人工智能顶级国际会议AAAI 2018论文收录结果公布。深圳Gowild(中文:狗尾草)智能科技有限公司或独拔头筹,成为国内唯一入选两篇论文的创业公司,势头直逼BAT。
AAAI人工智能大会,是人工智能领域的顶级盛会,自1980年至今,已经成功举办了31届。近几年,随着AI研究热潮的到来,AAAI的参会人数和论文数量也逐年攀升,其中,2017年注册参会人数接近2000人,论文投稿量超过2500篇。
作为人工智能创业公司,深圳Gowild智能有限公司人工智能研究院(Gowild AI Lab)共有两篇论文被收录,极有可能是创业公司在此次AAAI-18中的最佳表现。两篇论文分别是《Adversarial Learning for Chinese NER from Crowd Annotations》、《Personalized Time-Aware Tag Recommendation》,作者将在2018年2月2日-7日前往美国新奥尔良进行演讲。
资料显示,Gowild AI Lab是深圳Gowild智能科技旗下的专业AI团队,由知识图谱专家、长期带队参与国家科研项目的王昊奋博士于2013年发起成立,专注于AI前沿研究及产品应用落地。2017年推出Gowild AI Virtual life Engine(Gowild人工智能虚拟生命引擎,简称“GAVE”),成功应用于Gowild出品的holoera及公子小白系列产品中。另一方面,Gowild AI Lab积极启动校企合作,与苏州大学、华东师范大学成立联合实验室,建立AI智库,推动产学研的良好转化。此次两篇论文的入选,正是校企合作丰硕成果的体现。
近年,中国人工智能研究在国际舞台发挥了越来越重要的作用,甚至AAAI 2017因原定时间逢中国春节,特为华人学者重定时间地点。今年来自中国的论文也取得了令人瞩目的佳绩,我们静心期待明年年初在人工智能顶级舞台上来自中国学者的表现。
这两篇论文所关注的主题,都是实现虚拟生命的过程中遇到的实际问题,并通过校企合作进行研究和落地。两篇论文分别研究了命名实体识别(NER)和推荐系统。前者是自然语言理解(NLU)的基础功能,而后者可以在产品上体现“生命感”和认知功能。由于NLU技术目前在人工智能领域也仅仅处于起步阶段,因此,在NER方面的研究,体现了如何利用众包技术进一步提升数据的质量和算法的性能,从而增强虚拟生命的感知功能。而推荐系统,则以场景化出发,可以通过对多源异构的知识图谱进行融合,实现准确的推荐,让用户真实感受到“情感陪伴和关怀”,从而使得虚拟生命产品,从传统聊天机器人的“被动交互”,进化到根据用户兴趣和喜好进行“主动交互”。
下面是对两篇论文的简要介绍:
1. 和苏大的合作是基于众包的NER《Adversarial Learning for Chinese NER from Crowd Annotations》
简介:
训练命名实体识别系统时,需要大量的人工标注语料。为了保证质量通常雇佣专家来进行标注,这样会造成代价成本高且规模难于扩大。我们采用众包标注方法雇佣普通人员来快速低成本完成标注任务,但获取的数据包含噪音。我们提出了利用众包标注数据来学习对抗网络模型的方法,构建中文实体识别系统。受到对抗网络学习的启发,我们在模型中使用了两个双向 LSTM 模块,来分别学习标注员的公有信息和属于不同标注员的私有信息。对抗学习的思想体现在公有块的学习过程中,以不同标注员作为分类目标进行对抗学习。从而达到优化公有模块的学习质量,使之收敛于真实数据 (专家标注数据)。本文的算法框架如下图:
其中,左边部分是作为 baseline 算法的 CRF+LSTM,右边部分是本文提出的模型框架。
最终构建的中文实体识别系统(Crowd-NER)在真实数据上的性能比传统 CRF 模型高7%(F1),如下图所示:
2. 和华师大的合作是融合时间因素的标签推荐方法《Personalized Time-Aware Tag Recommendation》
简介:
标签是用户用来管理和查找网络资源的重要工具,如何给用户推荐合适的标签来标注网络资源也是当前的研究热点。传统的标签推荐技术有基于张量分解的协同过滤方法 PITF,但此类模型没有捕捉到时间对用户打标签行为的影响。受到考虑了时间影响的 BLL 类工作的启发,本文提出了一种融合时间因素的标签推荐方法(Time-Aware PITF, TAPITF)。该模型在 PITF 的基础上增加了时间权重和频次权重,使用 Hawkes 过程建模了用户倾向于使用自己最近最多使用过的标签这一行为特征,同时也考虑了目标资源上热门标签的影响。在真实标签数据集上的实验表明我们的方法具有较好的推荐准确度和一定的新颖性。
另外,本文提出的标签推荐模型也可以很好地辅助基于对话的音乐推荐任务。在对话系统中,通过对话能够收集到用户对于歌曲及标签的偏好。将收集到的<用户-歌曲-标签-时间戳>数据使用本文提出的 TAPITF 模型分解后可以得到用户、歌曲、标签对应的隐向量作为其特征向量表示,用于后续的音乐推荐。
在实验数据上,TAPITF 模型在准确度和收敛性能上均优于其他算法,后续我们考虑使用深度学习模型 RNN 来建模时间信息以更好地提升模型的效果。