5 月 23 日,阿里巴巴达摩院机器智能技术实验室自然语言理解研究组在杭州举行了阿里巴巴自然语言处理学术高级研讨会,共有近 30 位来自全国各高校机构的学者嘉宾及 8 位阿里巴巴集团参会代表莅临出席,并进行了为期一天的学术分享。
本次会议旨在搭建高校学术与企业实践的交流平台,增进校企合作,创新自然语言处理新技术。本次会议邀请了多位高校教授分享其在 NLP 领域的工作和成果,与此同时,阿里巴巴达摩院机器智能技术实验室自然语言理解研究组成员也分享了他们在自然语言基础研究、机器翻译等多方面的研究进展。
阿里巴巴达摩院机器智能技术实验室自然语言理解研究组在雷锋网学术频道AI科技评论旗下数据库项目「AI 影响因子」中有突出表现,凭借刷新 SQuAD 纪录获得加分。
以下是雷锋网 AI 科技评论根据现场实录整理的演讲内容。
研讨会伊始,阿里巴巴达摩院机器智能技术实验室主任金榕博士及自然语言理解研究组首席科学家司罗博士分别做了开场致辞。
金榕博士表示,在十几年前,做翻译更多的是一种「探索型」的东西,很难想像它在今天会发展到这样的壮大规模;「可能很多人觉得阿里巴巴更多是一个电商企业,所以像推荐、搜索等功能是它最主要的事情,但是以今天阿里业务的形态来看,翻译成为非常重要的方向。」而金榕博士也表示,阿里也希望翻译在电商领域的价值同样能迁移到日常生活当中。
而司罗博士则结合他曾经的学术界研究经历和如今在阿里巴巴的研究经历,分享了他的心得体会。「只有自然语言处理达成真正的突破,我觉得我们才能更进一步创造更多的智能,创造更多的机会。」AliNLP 平台支持着阿里关于自然语言处理方方面面的需求,包括机器翻译和多语言处理场景,在司罗博士的理解里,他认为阿里提供的 AliNLP 平台是「世界上自然语言处理领域最有价值的舞台」。其次,司罗博士也提及了技术的开放业态,通过阿里云等多种手段对外输出阿里的技术,做「普惠的自然语言技术的发明」。最后,司罗博士也强调了「脚踏实地」这个关键词。「我们希望做一些让子孙后代记住我们的事情,能够对将来的孙子吹牛的事情。我们特别希望做有挑战性、创新性的技术工作。」因此,他也向在场的嘉宾们倡议一同推进技术的学以致用,为人类创造更美好的价值与更美好的未来。
随后,苏州大学计算机科学与技术学院张民教授也作为嘉宾代表致辞。在过去的一年里,苏州大学与阿里巴巴保持密切合作并取得优秀成果。张民教授在致以谢意的同时,也提及整个行业处在一个「好的时机」,即产业化的需求已经成为时代的必然。此外,张民教授也指出情感、认知、理解仍然是亟待解决的问题,用微软的话讲是「得语言者得天下」,或者说,自然语言处理是人工智能皇冠上的一颗明珠。因此,阿里巴巴与高校的密切合作,不仅是企业的幸运,也是教师与个人于这个时代的幸运。
在上午场的分享中,五位高校老师分享了他们在各自研究自然语言处理过程中的成果。
来自苏州大学的陈文亮首先介绍了成立 30 年的苏州大学自然语言处理团队,该团队目前在信息检索、篇章分析、信息抽取、情感分析、机器翻译及知识图谱等六大研究领域都有着深厚的学术积累。
随后,陈文亮分享了团队与阿里不同团队的合作项目,结合在电商平台业务需求中所产生的自然语言处理实际问题,并开展创新性前沿应用技术研究和开发,研究如何利用大规模多领域跨语言无标注语料资源,并提高自然语言处理任务的准确率和鲁棒性。基于依存句法树库构建和分析模型、面向单产品问答文本的情感分析方法研究、面向知识图谱构建的文本挖掘算法研究和面向神经机器翻译的干预技术研究等四个领域,苏州大学自然语言处理团队分别在 IJCNLP-2017、IJCAI-2018 和 AAAI-2018 等国际顶级学术会议发表了相关工作。
赵东岩 - 基于知识图谱的文本语义理解及其智能应用
北京大学计算机研究所的赵东岩首先从类人智能研究动态入手,介绍了文本语义理解技术的相关背景,并从语义挖掘、语义理解、对话系统三个研究方向介绍了相关技术研究。
在语义挖掘领域,赵东岩团队已经构建了超过 1300 万条 RDF 知识条目、80 万实体的中文知识图谱,并支持动态构建、置信度评价、自然语言问答等。
在语义理解领域,团队构建了基于图结构的大规模 RDF 语义网络存储与查询系统,搜狗知立方 10 亿条知识图谱实测的平均查询时间为 400ms。
在对话系统领域,比较成熟的检索式对话技术通过从大量对话数据库中搜索候选回答,并将用户问题进行结构化,通过深度神经网络技术对候选回答进行排序,得到最优回答。
此外在语义引擎、对话机器人等方面,语义理解也有着多种技术应用,如理财顾问机器人、法律助理机器人等。
复旦大学的邱锡鹏首先回顾了 NLP 的发展历程,并引出深度学习在自然语言处理中的「尴尬」地位主要有两个方面。一是 NLP 任务中的神经网络并不深,多数情况下,一层 LSTM 加 attention 机制就足够解决问题;二是深度学习面临数据标注需求量大与代价高之间的矛盾。邱锡鹏指出在数据量小的情况下,可以采用多任务学习来联合训练多个不同任务,通过找到共性以相互提高,深度学习也为多任务学习在自然语言处理中的应用提供了条件,具体的结合形式包括硬共享模式,软共享模式,以及共享-私有模式等。不过邱锡鹏也指出,在多领域任务、多级任务及多语言任务上,多任务学习仍然面临不同层面的挑战。
新加坡管理大学的蒋静围绕团队提出的 Match-LSTM 模型分享了这一算法在自然语言推理和机器阅读理解上的应用。该模型改进了 Rocktaschel et al. (2015) 提出的基于 word-by-word attention 的模型,在解决文本蕴含任务中取得提升,在 SQuAD 数据集中取得了最好效果。通过给定前提 (premise) 去判断相应的假说 (hypothesis) 是否正确,是则判断为蕴含 (entailment),否则为矛盾 (contradiction)。
推荐系统在传统建模中通常采用基于矩阵分解的打分预测。南京大学的戴新宇在分享中指出,这一模型面临冷启动与矩阵稀疏的两大问题。以社交关系数据、商品的评论数据为代表的异质数据能够帮助解决上述问题。戴新宇介绍了如何设计一个模型来融合评论做基于隐式反馈的排序推荐,以及如何将神经网络的方法融入到推荐系统中。
下午场中,首先由阿里巴巴自然语言处理相关技术团队代表分享阿里介绍在研究当中和工作当中的一些挑战及相应成果。随后由两名来自高校的老师分享了他们在相关学术研究工作的一些心得体会。
阿里集团都谈使命,阿里巴巴的使命是「让天下没有难做的生意」,阿里翻译平台的使命是「让商业没有语言障碍」。
秉承这一使命,阿里翻译平台的翻译总量已经达到每日 7.5 亿次,每天翻译的词语数高达 2600 亿。不过,据陈博兴表示,目前电商翻译仍存在包括翻译质量、翻译速度及服务质量等多重问题。为解决上述问题,阿里翻译平台收集和构建了大量的电商领域的平行语料和知识库,并结合不同业务场景有的放矢,设计了基于规则的翻译模块(Rule Based Machine Translation,RBMT),基于短语的统计机器翻译模型(Statistical Machine Translation,SMT)和基于神经网络的机器翻译模型(Neural Machine Translation,NMT)等。最后陈博兴总结道,翻译的准确性、灵活性、可用性及稳定性一直都是机器翻译系统的重要标准。虽然目前机器翻译的效果并不算尽善尽美,但它在一些场景中能提供巨大的商业价值。
围绕阿里巴巴 NLP 基础技术体系平台 AliNLP,李林琳介绍了平台在分词、语法错误检测、垂直知识库、文本纠错解决方案、国际化业务、搜索方案等多个领域的探索和尝试,目前在搜索推荐、广告、金融、客服、娱乐、安全等业务场景广泛使用,支持阿里云城市大脑、医疗大脑等产业创新,同时全面覆盖 Alibaba.com, AliExpress, Lazada 国际化业务。
对于一个拥有海量多维数据的企业,阿里 MIT 在文本挖掘上也做出了不少尝试。刘晓钟在分享中介绍了团队在智能司法、舆论分析、文本生成、反垃圾、个性化推荐、事件挖掘等多领域的探索及实践应用。通过用户行为数据更好地理解用户,抽取重要的用户变量,代入文本挖掘的算法,进而提升算法准确度,阿里巴巴希望「天下没有难做的生意」。在最后,刘晓钟也提出了一些感兴趣的研究方向,邀请各位老师一同与阿里合作。
我们是 NLP 的团队,但是我们的研究并不仅仅指 NLP,我们特别期待的事情是把 NLP 做成算法,但我们会更多加入 User 的成分,User 的部分是我今天希望推荐给大家的,希望老师跟我们的合作。
清华大学刘奕群分享了清华大学在 NLP 领域所取得的成绩。随后,他介绍了异质环境下的用户交互行为模型的构建,包括搜索、native、信息流场景下的交互。异质化的呈现方式很多,信息源的来源多样化,尝试使用用户感知的方法收集行为数据,利用这些数据进行建模,可以利用这些模型来预测用户可能注意的内容,估测用户的注意力。搜索结果资源的聚合排序,通过大量的搜索结果和文本结果和在一起,给出一个最优的排序。此外,团队也探索了在点击行为之外,融合视觉特征、结构化特征等各种不同的表示方式,并使用深度学习的方法进行排序,以获得更优解。关于性能评价、欺诈检测和 CQA 作弊行为,刘奕群也分享了团队所做的一些工作。
哈尔滨工业大学 杨沐昀
哈尔滨工业大学的赵铁军老师和杨沐昀老师从机器翻译模型的改进和机器翻译译文的后优化两方面进行分享。前者主要围绕局部上下文增强词汇表示及句法导向的注意力机制;后者则主要围绕基于实例的翻译一致性优化及基于伪反馈的编辑一致性优化进行分享。围绕 MI&T Lab 机器翻译研究,团队将「语义为核心,句法篇章为两翼,认知为前沿」作为基础理论,基于平行语料库 NMT、基于非平行语料库的无指导 NMT 还有基于个人语料的机器翻译后优化为关键技术,在个性化检索、知识图谱、对话系统等领域做落地尝试,并应用于健康信息等垂直领域。
在最后,阿里巴巴集团机器智能技术实验室的骆卫华老师与黄非老师对本次研讨会进行了总结。二位老师首先感谢诸位与会嘉宾远道而来参加研讨会。
骆卫华表示,这是阿里 NLP 团队首次组织相关的研讨会,也希望未来能与大家多做交流。他认为本次研讨会的主要作用有两个方面。
首先是思维碰撞。骆卫华希望这些阿里与学术界、学术界内部的合作课题探讨,能给与会嘉宾们有所启发:「我觉得一个真正好的会议并不是(在会上)解决多少问题,而是大家能碰撞出来一些有价值的、新的问题。」
其次是构建合作桥梁。在研讨会的分享之下,阿里巴巴也希望能将可能有的一些合作点串联、嫁接起来,促进多方合作。
「工业界和学术界各有各的优势和分工,我们也希望能够把大家的优势结合起来,把各自在各自方向做好事情的能力结合起来,能够推动这个技术领域更快地发展,能够解决长期以来悬而未决没有解决的事情。」
黄非老师非常赞同骆卫华老师的观点,他表示自己在会上受益匪浅。通过阿里的工作介绍,他希望嘉宾们能借这个机会了解到自然语言处理,特别是多语言自然语言处理的机器翻译在阿里的重要战略地位,特别是在阿里国际化中起到的技术作用。
「在这样的场景下,我认为学术界的老师和工业界的研究者有很大的研究机会和互补的机会。工业研究中会提出一些新的问题,对学术应用会有促进;同时各位老师在学术界的深厚积累,对阿里的技术推进也有很大的帮助。」
我们也相信,阿里 NLP 团队将在未来举办更多与自然语言处理相关的研讨会,在研究与实践中不断带动学界与业界的交流与融合。更多资讯敬请关注雷锋网AI科技评论。
附阿里巴巴达摩院机器智能技术实验室自然语言理解研究组团队简介:
阿里巴巴达摩院机器智能技术实验室自然语言理解研究组团队致力与学术界、产业界一起创新自然语言技术。团队成员普遍拥有 10 年以上自然语言处理研发经验,分布在中国、美国、新加坡的近百位研究员,30% 以上拥有博士学历(如 CMU、伯克利、普林斯顿、清华、北大等),其中包括前国际知名院校终身教授、知名研究所研究员等。团队及成员多次在国际自然语言技术竞赛中取得冠军成绩 (2016 年 CIKM Cup 电商搜索,2017 年 IJCNLP 语法纠错,2017 年美国标准计量局信息提取,2017 年 WMT 俄语到英语等),在历年顶级国际会议上 (ACL,AAAI,SIGIR,CIKM) 均有学术论文及报告产出。
团队主要从事自然语言基础技术,机器翻译,文本挖掘,语义计算,文本搜索和推荐等方向的研究,致力于构建阿里巴巴自然语言技术体系,支撑阿里巴巴经济体语言智能技术和应用,秉持「让商业没有语言障碍」的使命理念,赋能阿里巴巴合作者,发展普惠自然语言智能技术。
创新自然语言技术,探索未来智能。