11 月 14 日,微软亚洲研究院迎来了18周年的纪念日,并宣布成立微软亚洲研究院院友会。来自阿里巴巴的初敏博士为大家带来了名为《语音交互-物联网时代的入口》的演讲,她认为语音交互成为风口的主要原因是数据驱动和广泛的硬件端接口的布局,阿里云 ET 在双十一的字幕表现并不理想,主要是因为现场环境十分复杂,而自然语言理解是后续做好语音交互的关键所在。
(初敏博士)
以下为初敏博士演讲摘录。
我最好的年龄和时间就是在 MSRA 里度过的。其实在 MSRA 最后两年没有再做语音,因为当时的感觉就是世界发生了天翻地覆的变化,但是跟语音没关系,所以后来就转向做大数据之类的事情。
后来到了阿里也几乎没有做语音,一直到了 2014 年底,阿里才开始要做语音。所以做的时间并不长,但这次有一个大的不一样的感觉:诶,这次好像真的是到风口上了。现在的数据、计算能力跟之前非常不一样,有很多的语音的需要和应用场景。
我今天不会太多地讲技术,会主要讲一些应用场景及在应用中碰到的困难。
今天为什么人工智能、深度学习这一块能火起来,主要是因为今天有“数据驱动”:数据和计算能力的增强,使得我们可以在很多方面做得精细。
另外就是,入口在变化。今天手机已经几乎能够处理 PC 做的事情,另外家里的汽车、音箱、电视等设备,也成为新的入口。我们在不同设备之间切换,语音会成为这些设备最好的交互方式,因为它是最方便的、最自然的交互方式。
语音的概念在改变,传统讲语音,指的就是语音合成、语音识别等。如今的语音,一定是一个泛概念,一定包含着后续的自然语言处理。如果一句话被你识别出来做出文字内容,但你理解不了这些文字包含的内容,其实后续很多事情都是做不了的。
语音交互有两个层面可以做,一个是在操作系统底层做,可以跨设备使用;另外就只是一个 API,任何一个 App 都可以调用。
我们阿里这边,最近的展示阿里云 ET,它其实是代表了各种人工智能技术的集合。而人类能与阿里云 ET 真正互动起来,其实是靠语音。
前两天双十一晚会有一个变魔术的节目,其实是非常困难的,因为它是直播。我们做下来最大的体验就是:真的想用,还是很不容易的。
现场一堆问题,我们要对接 10 多个团队,音频信号团队、视频信号团队、导演彩排等,我们到最后一次彩排都是出问题的。
我们当时也打了字幕,我个人认为当天的字幕并不理想,因为日程紧张,主持人语速很快,这就是很大的挑战。
双十一当晚,我们在媒体中心的活动上也打了字幕,这个字幕效果就好很多。我们后来统计这一场的错误率大概 3% 左右,其实就是因为这一场的环境简单。
所以我们到今天也还在思考:这个真的能用了吗?如何把这样一个看似很成熟的技术,能在各种真实的场景中应用起来,这还是一个系统工程的事情。
打字幕这个功能,我们目前真正在用的场景就是法院,快速形成庭审的速记稿。这在浙江的高等法院已经部署了,这个反应是比较好的。以前法官为了要让书记员记下来,他是要控制节奏的,而且速记员在记得过程中也要筛减内容。在庭审的几场演示中,基本都可以做到 95-96% 的准确率,这就很能用了,而且稿子都是法官原汁原味讲出来的。
有了云的平台架构的基础之后,任何一个端接进来,最主要的挑战都是端上语音信号的采集和处理。
我们语音的一个应用就是:个人助理。我们在 YunOS 操作系统上做了个人助理,另外还包括汽车里的。汽车里还是要解决降噪的问题,我们最近做的事情就是,开着车窗、播着音乐,如何在这样的环境下让系统可以唤醒地很好。因为我们测试的汽车上只有一个麦克风,主驾驶和副驾驶上的人说话是不一样的,一个人抬着头和低着头说话是不一样的,所以在接入的时候会有很多很多这样细节的问题。
另外还有应用的直达。以支付宝为例,这个 App 里有很多小的功能,你想找一个事情是很痛苦的。我们做了一个称为“Open Dialogue”的小架构,业务方在这个基础之上自己去开发一些简单的理解。比如用户对着手机说“我要给某某转账多少钱”,那么就会直接加载出这么一个转账的界面。这样用户就不用在各种界面里选,我觉得这将是语音给我们带来的最大价值:在有太多选择的时候,用说话就能触达到我要的那个点。
但要做到这一点,背后的技术就不仅仅是识别,而是你如何快速地接入任何一个场景。因为你换一个 App,你说的话就是不一样的,语义理解上要覆盖的 Domain 是不一样的。这里的挑战就是你要怎样建立一个可扩展的的架构,让任何一个新的业务、新的 Domain 来快速地接入。
我们还有一个尝试领域就是客服。中国目前的客服很多都是打电话,然后按很多数字选项才能接入到你想要的客服选项。这当中其实有很多数据是可以沉淀下来的,沉淀下来之后就可以进行学习。
在客服系统中分为几个部分,一个部分就是语音识别,把语音转为文字,另一个就是问题的分类,分类到两个地方,一个是机器人自助的服务(常规的、简洁的资询类问题),一个是人工服务,来解决更复杂的问题。
阿里集团的客服,基本上走的是这个路子:90% 的客服请求,基本都是机器处理掉的。
这个过程中,电话被文字化,数据会不断地沉淀下来,有很多价值待发掘。一个就是质检客服质量,这其实是一个刚需,还有就是用来发掘用户喜欢什么样的产品。
我们如今很难做到一个通用的模型,来适应不同的场景。数据先验的分布,跟你所定义的场景有关。让一个模型快速适应不同的场景,这是现在最大的挑战。
不同的应用场景,需要技术手段是不一样的。比如我们最常见的,问个天气、酒店、航班等信息,他是很结构化的 Domain,针对特定的 Domain 做,是很容易的。
但用户不会遵循 Domain 说话,他会跳来跳去,那难点就是,上下文当中哪些信息该继承,哪些信息不该继承。
另外,在客服的过程中,如何把用户的几万条语义计算出来,认为它们是相同的,这也是难点。传统是用搜索的方法来做,但搜索只是击中了几个关键词,有时经常会答非所问。
所以我们觉得人机交互往后最大的瓶颈可能就是在这个地方,就是自然语言处理是否能做的更好。
我们今天的团队任务很集中,只做了语言的交互,并没有做数据本身,因为做数据这个工程实在是太大了。所以要把很多的数据服务接进来,但是有时这些数据与语音接入的时候,并不是很友好,这是一个需要改进的地方。
所以这一盘,如果要做通的话,是一个非常大的范围,也不是一个两个团队自己能做完的,要靠生态来完成。
延伸阅读: