雷锋网按:4 月 27 日,GMIC 2017(全球移动互联网大会)北京站开幕,主题是「天·工·开·悟」。今天上午,阿里云 iDST 总监初敏博士做了题为「AI 技术发展与商业化之路」的分享,雷锋网对速记做了不改动原意的编辑和整理。
初敏博士 2009 年加入阿里巴巴,目前在阿里集团 iDST(Institute of Data Science and Technologies)负责语音识别,语音合成,自然语言理解,知识问答,对话管理等人机交互相关技术研发以及产品研发。
非常高兴有机会跟大家分享我们最近做的事情的感悟。最主要的是分享感悟。刚刚简先生(雷锋网按:竹间智能科技创始人 & CEO 简仁贤,他在 GMIC 2017 上做了题为“AI 时代的人机情感共鸣”的分享)讲 AI 是不是有泡沫,其实大家已经开始担心了。最近的 AI 跟过去相比已经开始商业应用了,技术的商业化正在开启,但这个过程没有想象的那么容易。我认为在未来几年里,只在说的人会越来越少,大家会看到某一些泡沫似乎在降下去,但我觉得会有更多实际干的人出来,真正的把这个技术用到每个行业中,让我们真正体验到用,而不仅仅是在媒体上看到的宣传。
我今天想跟大家分享的,一个是技术的发展,一个是真正的商业化之路是会非常艰难的。
人工智能这一波的热度是数据驱动的智能时代的到来。虽然大家表面上关注的最主要的是算法,是从深度学习开始的。现在还有强化学习、无监督、半监督等等各种各样的学习方法。事实上这些学习方法真正能起到作用、能带来改变,是因为现在有很强大的计算能力,以及有各种各样的数据贯穿在一起。
我们做机器学习的人,这么多年下来,有非常强大的经验。你在算法上的改变,往往不如数据种类的丰富性,以及规模增大带来的好处更大。
这两年能看到很大的进步,归根到底的原因是计算能力。计算能力包括原来在单台机器上,后来是在一大组 CPU 集群上,包括 TPU 等等各种探索,都是在解决计算能力的问题。因为联网把数据联接起来了,数据从不同的源到一个结点上进行统一学习,增强了学习效果。这一轮所谓的 AI 真正是大数据驱动的,云计算+大数据+算法的进步来推动的。
从另外一个应用的角度,大家体会最强的是互联网上的改变。这一轮算法技术,推荐、搜索、推送,我们已经能体验到一部分。今天我们感受到的变化更垂直化、个性化、智能化,在很多地方的细微改变都是因为数据的聚汇,以及学习对人、对各种细节学习能力的增强,使我们感受到细微的变化。
另外就是每个个体感受不那么深的,给传统工业带来了很多变化。比如,我们用在工厂的数据里,监测工厂的故障率、提高产品的良品率。可以预测城市生活中未来 N 个小时的交通情况,哪里会堵、哪里会出现风险,通过信号灯的调节能不能更好的疏通交通的通畅性。这些技术的确在方方面面,有一些是我们能够感受到的,有一些是在日常生活中不能直接感受到的,但都在发生着变化。智能化的过程已经开启,而且正在飞快的进步。
这件事情不是一个企业、一个人、一个机构能独立完成的。如果真把所有的技术从头到尾打通,有非常多的工作要做。从底层的计算能力,到垂直的语音、图像技术,即便是个 Bot,也要把这些东西集成起来。最终这些技术能不能是放之四海而皆准的,往往都是需要根据场景、根据垂直行业的需求来进行改变。一个系统不可能十年都不变,它要跟着外界的情况发生改变。一个系统第一天上线,我觉得它的效果很好,不是它一定要好一辈子的。你要把数据灌进去,要让这个系统 24 小时不停地转,这个转的过程也是学习的过程。只有这样的系统才真正的能用起来。很多时候我们看到上线一个东西,3 个月的效果很好,过一段时间就用不起来了。
这个技术不应该是在象牙塔里了,而是应该在很多地方推,这个推的过程是很多环节的衔接。在某些媒体上传播的时候,我们只看到了美妙的想象的部分,没有重视到实施过程中的各个环节。只有这些东西都做好,我们想象中的那个美妙的结果才能得到。商业化的过程中最大的困难,每个企业、每个环节想引入这些技术,想在你的场景中用通的时候,实际是要有思想准备的。不是闭着眼睛从哪里接根管子就用得非常好了,而是要有决心,要扎下去,打透了,才能得到非常好的结果。
人工智能真的需要分工协作,我们大家的定位在什么地方,我需要谁来帮助我。另外就是人才的储备。AI 很热,这个领域的人才非常热。我自己观察到的还有一种人才也非常缺失,其实是怎么用的人。比如,一个机器人在我们的环境中提供客服,应该怎么交互、怎么用、怎么设计、入口在哪里,这样的人才是更缺失的。我自己在公司里跟很多部门合作的时候都碰到这个困难,最终反而是技术人员好像更理解一点。其实这是不对的。
我觉得真正懂得 AI 技术在某一个场景中真正该怎么用的人才也是非常稀缺的。要打通的是各处的,只不过大家立足点不一样,你侧重的人才会不一样。
阿里云做的更多是底层,是以平台来提供的,底下会有集群、云计算的平台、大数据的平台,以及人工智能的各种专项技术。做这些专项的技术,语音识别本身都是投资非常大的,不是每个企业都值得自己去投资。因为做这些事情,既要很多人,又要很多钱,又要很多数据和很多计算能力,平台形式的提供是更为合理的。这也是为什么我们作为云计算公司会做很多这样的工作。各个层面的行业的打通,是各个领域的专家更懂的,后面就应该是各种解决方案。我们会提供各种基础能力,而真正的解决方案是跟合作伙伴一起打通,真正把这个垂直行业落地,工作量是非常大的。
因为我自己带的是语音交互的团队,我给大家举一个例子。底层也是一样,有识别。语音识别合成是大家传统讲的语音技术。现在有两个方向,一个是所谓的人机对话。各种应用 APP 里可以嵌入这种交互。但是,在你做 APP 交互的时候,因为你知道的事情比较少,能做的会比较窄。你从操作系统开始做,系统底层知道的更多,能通过这个交互实现和打通的信息就会更多。在我们自己内部做的时候也是这样,更重要的是以操作系统为依托,走到各种端,它可能是手机,也可能是车,也可能是电视,或者其他设备。当然,也可以提供一个简单的接入,让各种 APP 接入进去。
另外一个部分也是非常重要的,就是数据价值的发现。我们在阿里自己的云栖大会上,会直接接上语音转写,我在这里的讲话就被实时的转译成了文字。这样的资料就会非常有价值。这样的转写在法庭等各种场景都能用起来。如果我们把语音变成了文字,这就变成了很珍贵的数据资源,就可以发挥很大的价值。很多东西会随着时间发生非常大的变化。
在去年的云栖大会上,我们做过一次 ET 的演示。交互是一个最表层的东西,最终它是要把很多深的服务串起来。前提是我们背后有很多的资源能够接入。即便你理解了,如果我没有后备的服务是没有用的。这就是非常大的配合,一层是做语音、语言理解、对话的管理,但最后一定要把它转成某一个服务的查询。ET 是我们包装阿里云人工智能技术的代言人。这种实时的大会字幕,实时的语音能转成文字,中文、英文都在自己的系列会上用得非常成功,基本上已经是标配,包括「双 11」时做的节目。不同的场景,很难有一个固定的 Bot 能完成。我们能很快的在不同的场景做,实际上是因为我们可以根据场景快速的定制各种 Bot,根据场景的只是一个非常重要的能力。
语音识别是很重要的,最大的问题是算法的复杂度。因为有的时候复杂的算法的效果好。我需要实时,基本是在复杂率和实时之间的平衡。
还有数据的规模。你会问到方言覆盖率怎么样、能说多少种语言,其实这些转化到最后都是你有什么数据、你有多少计算能力、你多快能把这些语言做掉。能做中文、能做英文,其实做所有语言在技术上是一样的,差异是在于你的数据来源,你有没有那么多数据,你有没有那么多计算能力可以很快的把这些东西搞出来。在真正用的时候,实际上还是数据和计算能力的变化,以及模型迭代能多快。如果我有很强的计算能力在一个月里可以比较 20 种方法,我的进步就会很快。如果一个月里只能迭代一轮,我会进步的很慢。最终很多时候我们比的是这个。
各种场景的自适应。我们做实时字幕的时候,在技术性会议上是做的很好的。可以假设想象到,我去一个医疗会议上,可能会很痛苦,因为里面有太多的医学专有名词,我们的系统没有。怎么根据具体的场景,让它快速的 adapt 过去。
(演示环节)
刚刚稍微听了两个片段。语音合成技术这些年已经比较成熟了,刚刚放的两段是我们合作的两个场景,一个是语音播报频道。另外一个是面向儿童,讲故事的。这个技术也是可以定制,不同场景需要的声音是不一样的。我们面临的最大挑战还是如何快速的根据不同场景定制出不同的声音,适应不同的需求。这是商业应用时最大的挑战。今天做到的效果总的来说还是不错的。但是,这两个声音的场景如果换一下,其实是完全不好用的。这意味着我们需要根据场景来做定制化。
语言的理解与对话。简先生讲的 Bot 也是理解和交互。我觉得交互的目的是找到答案。其实是根据你的知识点在哪里,你的知识点是什么样的组织,我们才根据这个技术做这个事情。很重要的源是知识,知识的组织,以及知识从哪里来,这是真正应用的场景。一个企业做客服,你就需要有自己的客服知识库,这个事情是别人不能替代你的,一定是自己提供的。技术能提供的是什么?是如果你有自己的知识库,我是不是能很快的把它变成很好的问答的能力,变成和人交互的能力。
信息的抽取。一旦把语音变成文字,可以做很多自然语言的抽取。我们在客服场景里做的就是质检。因为今天所有的电话都被录音下来了,服务的质量好不好,用人去筛查,这件事情基本是做不到的。我们已经把阿里系的所有电话都语音识别出来,在文字层面做质检。这是蚂蚁客服的效果,本来他们有 30 多个人做 1% 的抽检,因为现在用了这个技术,可以做到 100% 的覆盖,人还会留一些,但工作量会减少很多,而且做到了 100% 的质检。类似的技术还可以用来进行产品的监控、危机的识别。
客服可以打电话,我们称之为热线。通过 IM 的交互,称之为在线。传统的做法,电话进来是一个按键菜单,最后都是人工服务。它也会记录下数据,通过数据的沉淀,我们有了知识库,这个行为中该怎么提供服务,可以学习到很多,最终可以进行改造。电话进来,可以用语音识别。然后,根据人的问题进行分类,猜你碰到了什么困难。如果这个问题是服务的机器人可以回答的,基本就可以自助的服务完成。如果是比较复杂的问题,就会输送到不同的技能组,因为客服人员也是分技能组的。这个过程中的数据而不断的沉淀下来,这些沉淀的数据又变成宝贵的数据资源,可以进行产品监控、异常监控,甚至是对用户技术分析。客服是企业跟客户接触最多的地方,对用户的了解也是最深的。传统的客服中心,经过各种智能化改造,它实际上变成了数据中心,会提供非常强大的数据支撑。
随着每年「双 11」业务量的增大,服务的请求量也是增长很快的。我们不可能通过加人来提高服务,必须用智能手段来保证服务质量。从 2014 年到 2015 年,服务请求量的增长非常大,主要是来自 IM,是因为当年把入口放得更明显了,用户更容易找到 IM 的入口,请求量大了很多。那一年在自助的能力上做了很大提升,人工服务量并没有增长,还有点下降,特别是 IM 入口,服务量下降很多,就是因为机器人能自助回答大部分问题。但是,人工电话的服务量是有所上升的。2015 年到 2016 年的变化,是因为我们一起合作了一个项目,加了语音电话进来的自助能力。到了 2015 年、2016 年,电话人工量也下降了。在 2016 年的「双 11」,客服团队的日子就好过很多,因为整个需要人工服务的量下降了非常多。
虽然我们自己是做语音交互的,但跟很多业务团队做了非常深入的合作。核心困难就是在最后一公里的落地上。只有我们有足够的投入,那些效果才能全盘的打通。语音接入本身就很难,经常有各种录音。我刚刚上场前,会提示我麦克风离得近一点,要不然收音就不好。在各种场合不能控制的时候,收音本身就是很痛苦的事情。
还有不同的场景,你需要的重点的词汇,你有自己特别的词汇,你有自己的口语化的问题,包括你自己的知识库。这个过程中很多环节,只有都打通了,真正的智能才能实现。不是说今天有泡沫,而是有多少人愿意实干,不是在那儿说,而是实实在在的把每一个环节打通,智能是一定能落地的,而且一定能带来商业价值。有很多例子可以看到,在真正落地的时候也遇到了非常多的困难。这跟企业想做这件事的决心特别相关。
我们做的是核心技术,最终还是要依靠生态和跟合作伙伴的合作,让智能化的技术在每个场景中落地。我们期待着把智能化真正的多地。
谢谢大家!