2017 年临近尾声,一整年的顶级学术会议也画上了圆满的句号。如果你为自己错过了某些精彩的国内论文演讲而心存遗憾,刚刚结束的「人工智能国际顶级会议论文报告会」或许能够让你拥有不一样的体会和收获。
12 月 20 日(周三)上午,「人工智能国际顶级会议论文报告会」在深圳市西丽大学城哈工大(深圳)F 栋国际报告厅顺利举行。雷锋网作为独家合作媒体,于 20 日提供了现场直播环节,并予以报道支持。
雷锋网 AI 科技评论在与会期间,同中国人工智能学会青年工作委员会秘书长、哈尔滨工业大学(深圳)计算机学院徐睿峰教授进行了交流。徐睿峰教授告诉雷锋网 AI 科技评论,当天上午进行的「人工智能国际顶级会议论文报告会」主要是作为中国人工智能学会青年工作委员会学术年会的一部分召开。
雷锋网 AI 科技评论了解到,本次论文报告会从议程上看,主要邀请了清华大学深圳研究生院、北京大学深圳研究生院、哈尔滨工业大学(深圳)、腾讯 AI Lab 等高校和研究机构人员参与,主要围绕今年发表于 AAAI, IJCAI, CVPR, ACL, ACM MM 等人工智能领域国际顶级会议的论文。此外,腾讯 AI Lab 还带来了 AAAI 2018 及 ACL 2018(TACL)的最新录用论文,提前一睹明年优秀论文的风采。根据徐睿峰教授的介绍,本次论文报告会主要依照定向邀请研究单位,后者推荐人选及论文的方式进行。兼顾到地域问题,本次的邀请对象主要集中于深圳地区。
议程于上午 9 点开始。虽然当天为工作日,但一早现场已经座无虚席。由于本次活动为免费参与,不设人数上限,有不少准时到场的同学都只能站在会场周围,挤得满满当当。据雷锋网 AI 科技评论了解,与会群体主要为广东省高校的老师、同学,还有不少是从外地赶过来的。一名来自广东外语外贸大学的老师笑称,「接到消息的时候赶紧报名,当时学校附近的酒店都快订光了。」
整个上午的议程持续三个多小时,8 位讲者各进行 15 分钟的论文展示,接受现场观众的提问并做答疑。
作为第一位演讲者,宁义双博士介绍了他在清华大学读博期间与香港中文大学、搜狗等科研单位合作的 AAAI 2017 录用论文《Multi-Task Deep Learning for User Intention Understanding in Speech Interaction Systems》(语音交互系统中基于多任务深度学习的用户意图理解)。在以 Apple Siri、搜狗语音助手、微软小娜为代表的语音交互系统中,准确理解用户语音输入所蕴含的意图是改善用户体验、提升用户满意度的关键核心。本论文聚焦语音交互系统的用户意图理解,提出了一种多任务深度学习的模型,将表征用户输入语义的文本焦点(Text Focus)、凸显用户侧重的语音重音(Speech Emphasis)进行融合,并结合社交网络数据将反映用户方言习惯和表达方式的地域信息进一步整合到模型中,从而实现对用户意图的准确理解,让计算机更加「通情达意」。
据 AI 科技评论了解,该论文是国家自然科学基金面上项目《面向自然口语对话的深层次信息感知与表达方法研究》以及重点项目《互联网话语理解的心理机制与计算建模》的重要研究成果之一,论文的指导教师为吴志勇、贾珈、蔡莲红等。
2016 年最受人瞩目的研究工作之一莫过于围棋 AI 了。但与 AlphaGo 不同,北京大学 Wang Jinzhuo、王文敏、王荣刚、高文等人提出的新方法没有使用蒙特卡洛树搜索。在 AAAI 2017 录用论文《Beyond Monte Carlo Tree Search: Playing Go with Deep Alternative Neural Network and Long-Term Evaluation》中,研究者们尝试从围棋专家的角度考虑更好的下棋方式。研究者使用了由深度交替网络(DANN)和长期评估(LTE)组成的系统,在每个卷积层后插入一个循环层,进行交替堆叠,以得到更丰富的层级特征;此外,针对对候选项进行综合的可能性评估(而非单个概率),模拟人类专家考虑走子的思考模式。通过实验,研究者表明该系统的棋力也强于目前大多数基于蒙特卡洛树搜索的方法。作者在演讲最后表达了对人类棋手的信心,认为虽然人类顶级棋手落败于机器,但人类经验依然有值得学习的地方。
作为腾讯 AI Lab 及阿卜杜拉国王科技大学的合作论文《Diverse Image Annotation》的代表,来自腾讯 AI Lab 的吴保元针对 CVPR 2017 的这篇录用论文做了介绍。
在演讲的开头,吴保元强调了多样性图像标注(DIA)是视觉理解的基础。这也是腾讯 AI Lab 一直在着力的研究点。在目前的图像标注上,研究者发现,如果要以尽可能少的词囊括尽可能多的图片信息,不仅需要减少冗余,还需要减少用两个词标注同一内容的情况出现。为了实现这一点,研究者将问题转换为两个需求:1)增加标签描述的相关性(relevant to the image);2)保证词间的多样性(diverse to each other)。
研究者所面临的挑战则是:1)如何同时从多样性与相关性制定相关维度?2)如何用一个指标以评估多样性?团队采用了一个简单而可行的思想:通过 DPP(determinantal point process)模型对多样性与相关性进行编码;而通过加权语义路径(weighted semantic paths)来制定新的语义度量。也就是说,既要保证 path 的个数,又要使得对应词所在的层级越低越好(说明该词越具体)。
以下图为例,「person」与「people」都是属于同类对象,因此在判别时需要尽量减少这两个词的同时出现,而同一 path 的层级越深(people-woman-lady),则说明该描述词越具体。
哈工大(深圳),华为诺亚方舟实验室的合作论文《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》被 IJCAI 2017 录用,团队通过关注如何学习用户行为背后的组合特征(feature interaction),并最大化推荐系统的 CTR。
目前的主要方法只能分别得到低阶或是高阶组合特征。比如通过最近的 App 热度,为用户推荐带有相关 ID 的应用;或是通过一些用户行为时间(如饭点到了,外卖类 App 下载量会变高)来进行推荐排序;抑或是用户的性别、年龄等信息进行判断(如向男性用户推荐射击类游戏)。
研究团队通过集成 FM 与 DNN,思想与谷歌的 Wide&Deep 类似,wide 代表 FM 模型;deep 代表深度神经网络,构建一个端到端的,且能突出高低阶组合特征的模型——DeepFM。据论文提及,DeepFM 在真实应用市场的数据和 criteo 的数据集上实验验证,在 CTR 预估的计算效率和 AUC、LogLoss 上超越了现有的模型(LR、FM、FNN、PNN、W&D)。
在《Improving Sequence-to-Sequence Constituency Parsing》中,来自腾讯 AI LAB 的论文作者分享了他们在 AAAI 2018 的录用论文。简单说来,团队将自然语言的句法树通过端到端模型转换成一个序列,实现「输入是一个序列、输出同样也是一个序列」的结果。在预测某个节点时,对附近的节点信息进行提前预测,实现端到端的句法解析。
在短暂的茶歇与交流过后,北京大学深圳研究生院分享了他们在 ACM Multimedia 2017 的其中一篇论文成果。在《Learning Object-Centric Transformation for Video Prediction》中,信息工程学院硕士研究生陈雄涛、导师王文敏教授等作者深入研究了以物体为中心的视频预测问题,采用深度注意机制和动作转换学习方法,可以有效地对同一场景下不同物体的动作进行预测。
而在今年的 ACM Multimedia 2017 上,王文敏教授所指导的硕士研究生在主会 Main Paper Track 上发表论文 2 篇、在主会 Thematic Workshops 上发表论文 1 篇、在与主会同时举办的「International Workshop on Multimedia Verification (MuVer)」上发表论文 1 篇。上述研究获得了深圳市「图像与视频处理技术」孔雀团队项目、以及深圳市「智能多媒体与虚拟现实重点实验室」项目的支持。
腾讯 AI Lab 高级研究员涂兆鹏作为代表,分享了腾讯 AI Lab 与清华大学、南京大学,今日头条,滑铁卢大学等合作机构撰写的两篇 ACL 2018(TACL)录用论文。
从腾讯 AI Lab 的角度来看,这两篇论文分别是它们在文档层面(双语词),以及 adequacy learning(未翻译建模)的新尝试。
在与清华大学刘洋老师合作的《Learning to Remember Translation with a Continuous Cache》中,团队使用 Key-Value Memory Network 记录历史翻译信息,将 EMNLP2017 工作的 cross-sentence context 从单语句子级别推进到了双语词级别。而在《Modeling Past and Future for Neural Machine Translation》中,团队将源信息分为过去内容与未译内容两个部分,并由两个附加递归层进行建模。这些内容都将被提供给注意力模型与解码器,为 NMT 系统提供两个层面的信息。实验结果表明,此方法能显著提升汉英、德英和英德翻译任务的效果,且在质量与比对错误率都优于传统模型。
在论文报告会的最后,哈尔滨工业大学(深圳)博士生杜嘉晨分享了他作为第一作者在 IJCAI 2017 上发表的论文《Stance Classification with Target-Specific Neural Attention Networks》。
传统情感分类只是简单判别情感的正负向,此外,基于原始文本没有指定特定目标,或文本中存在的大量隐喻论述,针对特定目标的立场检测及分类成为了一个值得关注的问题。团队通过提出神经网络模型,通过 1)给定 target augment embedding 模型与 2)给定 target 注意力信号,将目标特定信息融入分类中。
在与徐睿峰教授交流时,他表示整场报告会听下来,最大的感受依然是人工智能的领域之宽,「虽然目前技术上各个领域有一些相通的东西,一些做视频的方法与做文本的方法也可以进行借鉴和采用,但实际上还是很难存在一些通用性的方法囊括所有的问题,比如博弈所采用的方法,在其它问题领域的应用上就会少一些。」
上午的「人工智能国际顶级会议论文报告会」结束后,下午开展了学术年会暨工作会议的相关议程,除邀请中科院自动化所张家俊、哈工大(深圳)张春慨、狗尾草智能科技的王昊奋、中科院信工所任文琦及哈工大张伟男进行学术报告外,还进行了青工委的工作计划和讨论。
本次学术年会在 2017 年 12 月落下帷幕,也为 2018 年青工委的工作提前做好了合理的规划与部署,相信在新的一年里,中国人工智能学会青年工作委员会将会组织更多的学术活动,为老师学生们提供广阔的交流平台。雷锋网 AI 科技评论也将持续带来更多详细报道。
本文图片由哈尔滨工业大学徐睿峰教授提供,特此感谢。