在 5 月召开的第二届世界智能大会上,由新一代人工智能产业技术创新战略联盟承办的新一代人工智能核心技术论坛在天津举行。
新一代人工智能产业技术创新战略联盟由科技部指导成立,潘云鹤院士担任联盟名誉理事长和专家委员会主任,高文院士担任联盟理事长,北京大学黄铁军教授担任联盟秘书长,AVS 产业联盟秘书长张伟民和科大讯飞副总裁兼讯飞 AI 研究院联席院长李世鹏任联合秘书长。旨在推动新一代人工智能技术在各行业的研发应用。阿里巴巴达摩院机器智能自然语言首席科学家司罗博士在会上做了演讲,本次报告主要专注于 NLP 领域的相关技术。
目前阿里巴巴在自然语言智能方面主要研究方向包括自然语言智能基础技术、机器翻译、文本挖掘、语义计算、文本搜索和推荐等,司罗表示电子商务是阿里巴巴发展的主动脉,其他客户对产品的评价是刺激用户消费的最好手段,通过阿里巴巴自然语言智能,用户可以最快的找到自己想要的商品,以及对该商品最符合预期的评价。做好自然语言智能的开发,是电子商务行业的核心竞争力。
司罗在卡内基梅隆大学获得博士学位,美国普渡大学计算机系终身教授。专注于自然语言处理、机器学习、深度学习等人工智能基础技术的研究。
阿里巴巴达摩院机器智能技术实验室在自然语言处理领域也有着突出表现。在雷锋网学术频道 AI 科技评论旗下数据库项目「AI影响因子」中,阿里巴巴达摩院机器智能技术实验室凭借刷新 SQuAD 纪录获得加分。
达摩院机器智能技术实验室
以下为司罗的演讲全文,雷锋网 AI 科技评论做了不改动原意的编辑,略有删改。
今天非常荣幸有这个机会和大家交流一下我们所做的工作,希望借今天这个机会向大家介绍一下阿里巴巴在自然语言智能方面的工作,得到大家的建议和指正。
首先,什么是自然语言智能?自然语言智能是研究实现人与计算机之间用语言进行的有效通信手段,是综合了语言学、心理学、计算机科学、数学和统计学于一体的综合性学科。它涉及到自然语言和形式化语言的抽取、分析、理解、产生和转化。自然语言技术从计算机诞生的 20 世纪 40 至 50 年代开始就被科学家所涉猎。计算机处理跟人相关文本的信息,最开始的技术是用简单的规则来实现;而随着时代不断的进展,自然语言智能也取得了突飞猛进的发展。
从我个人的角度和一些同行的角度,我把智能分为四个层面,计算智能、感知智能、认知智能和创造智能。
计算智能指的是计算机可以利用大量的计算的能力,远远超过人类的计算能力来帮我们做很多计算上复杂度很高的事情,比如说这两年非常流行的 AlphaGo,它做的工作实际上是用计算机超强的计算能力在围棋领域优化空间中做有效的搜索,来产生出超越人类围棋竞技能力的智能。但是,我认为它本身还是属于计算智能层面,是属于比较基本的智能。
下一个层面是感知智能。计算机能够在复杂的世界当中抽象出具体的实体。比如说,在自然语言理解方面,我们能不能把文本当中的人名、地名、时间、地点等重要信息抽取?又比如说在视觉里面,我们能不能鉴别出有没有人脸、室内、室外等等场景?这是感知智能的范畴。
进一步,是认知智能的层面。我们不仅能够抽象出实体,而且能发现它们之间的关系,从而在实体和关系之间进行推理,从而找出更多有价值的信息。比如在自然语言处理上,我们可不可以把很多信息报道所提到的人物和事件串联起来,能够抽象出事件的发生、发展、高潮的过程?又比如在视觉的自动监控,我们能不能把不同场景中相同的人的轨迹抽取出来?这些属于更深层的认知层面。
建立在复杂的认知能力上,我们希望能够实现创造智能,比如由计算机自动产生逻辑自恰的长篇小说,甚至有一天自然语言智能能自动产生出我今天演讲的内容,这属于更高层面的创造智能的范畴。
自然语言智能的技术使命
在感知智能、认知智能和创造智能之下,我们一定要解决「更好地理解知识,更好地分析语义」的工作,这就是自然语言处理所肩负的重要技术使命,阿里巴巴是一家技术公司,有远大的技术抱负和期望,阿里巴巴很早就认识到自然语言智能的重要性,在自然语言智能研发方面有很大的投入,我们的使命是:
第一,构建阿里巴巴的自然语言技术体系,支撑整个阿里经济体,关于自然语言的需求和应用,我们的目标是让商业没有语言障碍。
第二,我们的技术是开放的,不是封闭的,所以我们希望能够发展普惠的自然语言技术,能够赋能阿里巴巴的合作者。
第三,我们的目标是仰望星空,希望能够做开拓性的技术的工作,我们非常希望能够和业界的同事、学术界的朋友一起创新自然语言技术,探索未来智能。
我们阿里巴巴组成的自然语言智能团队,是一个国际化的团队,我们有近百名研究者分布在中国、美国、新加坡、俄罗斯等地,30% 以上有博士学历,包括清华、北大、Berkeley、CMU、Princeton 等等。多位国际著名院校的终身教授,研究院研究员,所从事的工作也是非常丰富多样,从基础的自然语言技术,到机器翻译、文本挖掘语义计算、文本搜索和推荐等。所以我们有远大的目标,仰望星空,同时我们也希望脚踏实地。
我们这个团队最近一年多所做的几件事情,主要是围绕搭建和创建阿里巴巴自然语言技术平台、技术体系,创建了阿里巴巴的 NLP 技术平台,自然语言处理平台,叫 AliNLP。它是服务于整个阿里巴巴生态系统的大规模自然语言技术平台,包含了从数据抽取、数据处理到语义、语法、篇章、分析、文本表示等多项技术。
我们从 2016 年底开始研发技术平台,中间经历了多次版本优化和迭代,到今天它已经在阿里巴巴内部发生了巨大的作用,每天有超过 240 个活跃的业务方使用这个平台,每天的活跃的调动量超过 3000 亿次,产生很大的价值和影响力。
这个平台不仅有非常大的规模应用,同时有很鲜明的技术特点。
首先从事自然语言研究的同行们一定知道,传统的自然语言技术都是需要大量的人工标定的语料数据,基于此之上再开发相应的自然语言算法。但是在阿里巴巴极其复杂和多变的场景下,这往往是不现实的。比如我们每天都有新的商家、商品、品牌这些实体不断的浮现出来,不可能经常用人工的成本来进行数据标定,所以我们采用的解决方案是借用用户的行为数据来代替传统的人工标定数据,设定我们的自然语言算法,当然,这是在保护用户隐私前提之下的。
第二,阿里巴巴这么复杂的生态系统,涉及到成百上千上万的各种复杂的任务,我们把这个看作既是挑战又是机遇,我们希望能够同时对多个相关的任务进行建模,同时提高每一个单独任务的本身的效果和效应。
AliNLP 平台的整体框架,包括从底层的数据到 NLP 基础的算法,到 NLP 垂直的技术,如问答、文本理解,反垃圾情感分析等等,支撑了阿里内部所有重要的新零售、电商、广告、金融、客服等等领域的工作。
第二个平台是阿里巴巴机器翻译平台,坦诚地讲,我认为阿里巴巴机器翻译平台是世界上最有价值的机器翻译平台。为什么这么说呢?我们很多互联网平台同事们都做了非常优秀的技术工作,但是阿里巴巴的技术平台是整个阿里国际化战略的技术生命线,会直接在国际化电商的场景产生巨大的价值和影响力,它本身产生的价值非常巨大,在这个平台上有非常非常多的问题需要我们去解决。
去年一年,我们全面支持了阿里巴巴的速卖通,B2B,阿里巴巴.com,LAZADA 是东南亚的平台,关于机器翻译的需求非常大,全年有几千亿次的调用量,这些调用量不仅产生了很大的价值,同时对我们的数据和算法进行优化,极大地提升了用户的体验,也对整体的电商技术平台的升级起到了很大的作用。
语料是机器翻译非常重要的环节,在这个环节上我们做了大量工作,包括用技术的手段减少语料的需求量,包括用众包的方式寻找语料等等,有效地达到高效取得语料的效果。
接下来是机器学习训练的框架到核心的机器翻译模型。这既包括了现在流行的 NMT 神经翻译、机器翻译模型,也包括了 SMT 等比较传统的统计机器翻译模型。我们所做的创新工作是把这些模型结合起来能够产生更有效的效果。
一个比较具体的例子是阿里巴巴比较独特的场景,即 B2B 买卖加沟通的场景。我们很多供货方是中方的供货方,母语是中文,我们要做到全球买全球卖,而世界上的需求往往是说英语或者其他语言的需求方来完成交易、购买交易的,两者之间是需要大量的交流工作来确定交易中支付、物流、赔款等等重要的环节,所以提供实时沟通翻译支持买卖家实时沟通是至关重要的。
今年在美国的 CES 消费展上,我们第一次展示了买卖家实时沟通的系统,现在也已经在阿里巴巴的平台上大规模应用,我们相信这是非常有价值的手段,能帮助我们更好地突破商业的语言障碍。
以上是两个阿里巴巴内部关于自然语言智能的主要平台技术,接下来我花一点点时间向大家介绍一下我们所做的具体的技术工作。希望能够传递出我们所设想的一些场景,或者设计算法的一些初衷。
首先一个具体的问题是,如何利用用户搜索意志改进商品标题压缩。我们都知道,现在电商场景下,大家越来越多地用 APP 来购买而不是用 PC 来购买,所以这就存在一个问题,即如何把商家原来输入的非常冗长的标题进行压缩,从而能够在移动端屏幕上展现出来的问题。如何进行有效的标题改写和压缩,这是一个很重要的、有很大价值的技术手段。
传统的方法有基于规则的方法和基于序列学习的方法,但是它们都有一个非常大的缺点,就是他们并没有考虑生成的短标题对于转化率的影响。由于用户体验和转化率对于一个电商平台是至关重要的指标,所以我们必须能够想出新的办法,能够把这两者加入到商品标题改写的这项任务中。
所以我们所做的工作在于,通过多任务学习的方式在序列学习的过程中加入对转化率的影响。
一方面,我们用传统的序列学习的方式来学习人工产生的短标题;
第二方面,我们用最终引导成交的用户搜索进行过渡。
如果用户有一个查询,这个查询产生了点击或者购买的行为,我们可以想象到用户比较短的查询和商品的长标题实际上形成了很好的商品标题的压缩,也标志着这个用户的查询可以看作是商品标题比较好的改写。
所以基于这样的想法,我们设计了多任务学习的方式。第一用比较传统的标题改写的方式,序列改写的方式来实现标题改写。同时我们也加入了用户查询、用户生成的模型,这个模型就是把用户本身的转化率、用户的投票加入到我们模型的考虑情况之中。
最终将这两个任务一起进行训练,就能更好地实现商品短标题重新的改写。这一工作发表在 AAAI 2018 上。
我们也做了大量的研究和线上线下的检测,无论在线下的关于可读性、准确和信息完整性的检测,还是在线上能够提高点击率,提高转化率,也就是直接提升商业价值方面都有很大的提升。这是我们商品短标题方面的工作,我们可以看到它利用了大量用户行为的数据,同时也利用相关的任务综合起来,以提升每个单独任务的效率。
第二个问题我想介绍的是关于面对问答文本的情感分析。评价情感分析是电商平台的生命线,很多用户在购买之前都会看评价,评价本身传统的情感分析是句子情感分析,也就是单独看这句话所代表的正面或负面的情感,但是在现在的电商平台之中,往往已经不是这么简单,因为有很多关于问答、用户之间问答的信息,比如说在阿里巴巴平台上,我们是允许一个消费者向已经购买某个产品的其他消费者发出问题,根据这些反馈来做自己购买的决策,这里面就涉及到问答的问题。
比如说一个消费者可能会问这款笔记本的键盘怎么样?回答是键盘不错但是耗电太快了。如果我们仔细分析问答对的话,我们可以看到,其实对于问题来讲用户是正面的,但是耗电太快是负面的,我们要分析问题和答案关系从而作出对于问题的情感分析。
基于这个新的问题我们提出了一种新的深度学习的的方式,从四个角度对于这个问题进行建模,包括从单字的角度、句子的角度、问题和答案之间的关系等角度,最终产生情感分析的结果。
这是我们的机器深度学习框架,其中一个重要的环节就是用来匹配问题和答案之间子句的相应的匹配程度。我们也做了比较全面的测试,来看我们整个 4D Approach 的结果,最终的结果相对于传统的情感分析方式有着非常大的优势,它的优点就来自于它能够精确地分析问题和答案之间的语义关系从而产生结果。
接下来要介绍的是机器阅读理解。机器阅读理解是近一、两年自然语言处理信息搜索等领域一个非常火爆的课题。机器阅读理解属于智能问答的范畴。智能问答我们大家都知道,在自动客服等等场景有着广泛的巨大的商业应用和价值。传统的智能问答一般由两种方式解决,一种是常见问答对的方式,一种叫做知识库构建的方式。
常见问答对的方式是指,对于某一个领域,我们事先要收集大量这个领域典型的问题和相应的答案,然后如果有一个用户提了一个新的问题,我们需要把这个新的问题和问答数据库中已有的问题进行语义匹配,再把相应的答案展现给用户。
基于知识库的方式是需要做更多预处理的工作,它要把这个领域之中的实体和它们的关系都抽取出来,对于用户所提出的问题也要进行相应的处理,在这个基础之上才能够进行回答。
这两个方法如果有充分的人工标定的数据,是可以取得比较好的效果的,但是在复杂多变的场景下,它们数据准备的成本都非常高,冷启动的成本非常高,维护的成本和语义的开创程度都有相对的缺点和弱点的。
基于这样的观察,机器阅读理解最近一两年内成为智能问答领域内最重要的新颖的创新技术,机器阅读理解是针对用户的问题,我们不需要产生预先收集某个领域的典型问题,我们只需要把相关的文本比如说产品说明书,比如说活动说明书有关的文本收集起来,有了用户的问题,我们再把用户的问题和文档当中的信息进行比对、进行抽取和理解,就可以回答客户的问题,我们可以看到,它不需要准备事先大量的某典型领域的问题。这样一来,数据在冷启动维护成本和领域开放方面都有比较大的优势。
另外一方面,我们没有很多事先收集的用户数据,这对于自然语言算法设计的挑战是非常大的,我们必须精准地理解这些文字背后所代表的意义。
我们的一些相关工作已经发表在 ACL 上。就本身的技术效果来看,我们在 2018 年 1 月份在斯坦福大学机器阅读理解领域顶级赛事 SQuAD 比赛中,我们历史上第一次用计算机算法的实现超越了人类的成绩,这应该看作是机器阅读理解史上里程碑式的成果。但是 SQUAD 数据级跟实际应用有很大的偏差,因为 SQuAD 有很强的假设,比如首先,所有的问题文案中都有答案;第二,文案都比较短,这跟实际的应用场景是不一样的。
所以我们把我们的重心转换到更实际的场景,比如这个名为 TriviaQA 的数据集,集中于信息抽取、信息搜索和机器阅读理解,是一个综合性的更接近于实际应用场景的数据集,我们在数据集上取得了比较好的效果。我们真正的研究重点是在广阔的实际应用场景中。
在阿里巴巴内部问答场景中,我们支持了非常多的活动和规则方面的支持,节省大量的人力、产生了大量的价值。同时我们现在正在服务赋能阿里巴巴的商户、店家,我们希望把机器阅读理解的功能开放给商家,比如说商家的客服往往要回答关于他们商品、关于他们付款、关于他们活动的问题,如果这些商家能够提供给我们他们相关的文档,我们就可以帮助他们做自动的客服。这个叫店小秘场景,阿里巴巴店铺上的客服笑咪场景已经开始支持很多著名的厂商,比如 Playboy 和森马等等。
同时在新零售和电商以外的场景,我们也开始支持税务法规、医药等等更多的行业。当然机器阅读理解不止限于中文,我们在英文电商场景中也有很广阔的应用。
最后我想讲一下关于电商搜索方面的课题,我们都知道亚马逊、淘宝是非常大的电商搜索引擎,有的几亿级的商品目录,在这些大的电商平台进行搜索,我们既需要提供好的用户体验,同时我们也希望尽可能地提高效能减少计算资源的消耗。
我们提出的解决方案叫级联式电商搜索方式,想法非常简单,我们在不同的阶段有不同的模型,在初始阶段,用简单的模型能够过滤到大量不相关的内容,在后面的阶段用更复杂的模型,来产生更精准的排序,我们所做的工作主要在于能够把多项用户体验的指标如搜索的延时,搜索是否产生足够的结果和计算资源联合建模能够产生整体的既有效率又能产生用户体验的解决方案。
同时我们也分析了多种用户行为比如说点击购买等等来构建更有效的电商搜索。这也是一些具体的实现,具体的工作在 KDD 2018 的论文中。
我们做了大量的实验证明它的效果,包括离线的和在线的,特别是在 2016 年双 11 的应用,这个层级式的搜索方案节省计算机消耗达到 45%,节省出来的资源更有效地实现新的实时特征,取得了 22% 的定级率的提升,这个产生的价值是几亿、几十亿的量级。
上面是我们所介绍一些具体的应用案例,最后我也想交流一下自然语言智能理解的广阔的应用场景。
在新零售电商领域,比如说情感和舆情分析,这对于电商是至关重要的,我们提供的情感分析每天服务百万级的商家,近亿级的 DAU,每天阿里系有超过一亿人关注商品的评价帮助他们进行商品的决策。
智能消费、信息流是最近流行的手段,和今日头条不同的是我们产生的频道叫淘宝头条,不只是关于资讯的推荐,更多的是消费资讯的推荐,更好地帮助人们做商业的决策。我们把用户内容的相关性和商业的转化率更好地结合起来,提供更好的用户体验。
还有智能无线推送,我们的目标是能够在正确的人在正确的地点、在正确的时间推送正确的内容,每天为淘宝阿里系电商进行大量的引流,产生亿级以上的 GMV。
最终,自然语言智能的应用远远超越新零售电商这一领域。我们在医疗信息管理、在地址信息管理、文本信息等等方面都和我们的合作伙伴有着广泛、大量的合作,如果在座哪位有对这些方向感兴趣的,我们也非常希望欢迎大家和我们线下交流。谢谢。
更多资讯敬请关注雷锋网AI科技评论。