在 3 月底的云栖大会上,阿里云总裁胡晓明在会上做出战略宣布:阿里巴巴全面进军 IoT。这是继电商、金融、物流、云计算之后的一条新的主赛道。
阿里巴巴希望数字化整个物理世界,并作为 IoT 基础设施的搭建者而存在。这样一层「新身份」也让不少人为之振奋,认为「5 年内 100 亿设备」的未来将成为阿里云 IoT 事业部总经理库伟所说的「万物智联」的全新世界。
在阿里巴巴这样的企业战略规划之下,以语音交互智能实验室为代表的众多研究部门如何明确自己的定位,并助力阿里巴巴更好地领跑这一赛道,也成为一个亟待解答的问题。
在 3 月底举办的首届 AITech 峰会上,阿里巴巴达摩院-机器智能技术研究院的语音交互智能实验室首席科学家鄢志杰做了题为《IoT 时代的语音交互智能》的主题演讲。
图via 新一代人工智能联盟
计算是心脏,AI 是大脑,IoT 是神经;这是阿里巴巴数字化进程中发挥重要作用的三个「器官」。那么作为「阿里集团乃至蚂蚁金服语音技术的研究开发和产品部门」,鄢志杰所在的语音交互智能实验室在 IoT 中担任怎样的角色?
鄢志杰认为,语音是最自然的与 IoT 交互的方式。首先它无需学习。用语言交流是人类所具备的一种独特能力;其次,语音「hands-free」、「eyes-free」的特点也让教育用户的成本几乎能够降到最低。
「语音交互智能是 AI 与大众最近的接触。」鄢志杰如是说。不论是 BB-8 还是 R2-D2,能与机器顺畅自由地交流一直是科幻作品的美好想象。得益于 AI 近年来的突破性进展,以语音、计算机视觉为代表的感知智能;与语义理解、语义生成的认知智能,技术的飞跃有目共睹。
在近年来,业界也推出了以聊天机器人、智能音箱为代表的语音交互产品,也让这一愿景不再遥远。而智能语音交互也已跨越了「能用」的基本诉求,正在逐步向「好用」迈进。
阿里巴巴的语音交互智能实验室也正在尝试架起「人机交互」和「个性化服务」的桥梁。而上升到技术层面来总结,语音交互智能将成为 IoT 与互联网内容和服务的桥梁。
以 NUI 自然交互平台为例,背靠「云+端基础设施」和相应的开发者社群,语音交互智能得以从意图理解、对话管理、问答系统、聊天系统、推荐广告和数据闭环展开对自然输入输出的技术发现,并连接不同的功能选项(如出行、购物、天气等)和相应的 IoT 设备(如手机、汽车等)。
而从语音交互智能实验室的研究切入点来分析,一个完整的交互过程有两个主要环节,语音进和语音出。
从用户说第一句话开始,首先涉及的是麦克风采集传感器的硬件技术,到麦克风阵列的信号处理;在清晰采集到语音信息之后,系统需要对语音进行正确识别;再者,对语义做出正确的判断和理解,并结合用户的需求获取相应的回复;最终,合成语音达成输出,反馈给用户。鄢志杰还补充道,话题背后的相关数据积累,也作为整个交互过程的一个调用环节而存在。
语音交互智能实验室每半年会迭代一次声学模型,原来的 BLSTM(双向长短时记忆单元,Bidirectional LSTM)到后来的 Low frame rate latency controlled 的 BLSTM,在精度上已经有了很大飞跃。而今年即将在国际声学会议 ICASSP 2018 上做 oral 报告的 DFSMN(深度前馈序列记忆网络)。DFSMN 使用基于 BLSTM 的统计参数语音合成系统作为基线系统,采用广泛使用的跳跃连接技术,在执行反向传播算法时,梯度可以绕过非线性变换。鄢志杰告诉雷锋网 AI 科技评论,这一技术已经在阿里巴巴的实际业务中发光发热。
除了典型的 IoT 产品,如天猫音箱、荣威智联网汽车、天猫盒子、海尔人工智能电视外,鄢志杰还提及了 IoT 在公共场所服务上的应用案例。去年 12 月,上海地铁与阿里云携手推出了上海地铁语音售票机。
理论要应用到 IoT 实际层面,也有着不少门槛和障碍。在实际生活的体验和接触中不难发现,市面上的语音交互产品多应用于家庭、办公等安静场景中,强噪音场景下的技术落地存在诸多难点。
首先是识别「谁在说话」的问题。语音交互智能实验室结合摄像头带来的视觉数据,结合语音输入的信息,能够进一步确认说话者及相应的指令。视觉和语音的多模态交互配合能够让识别率更加精准,进一步提升强噪音场景的应用能力。
解决了「谁在说话」的问题,下一步则是更好地保证语音输入的信息完整。在排队买票的过程中,如何精准识别买票者的语音信息,而尽可能避免后方排队者带来的噪声干扰,也是困扰语音交互智能实验室的又一问题。通过改造麦克风阵列的立体布局,将关注点更多地定位在站在售票机前说话者身上,则成为了解决这一方法的有效手段。
而相应地,上海地铁的硬件设施也进行了一次「大改造」,增加了光学摄像头及面板背后的麦克风阵列,这也涉及与以传感器为代表的硬件厂商的合作。
鄢志杰也对雷锋网 AI 科技评论表示,从 IoT 的层面上看,语音交互智能实验室可能原本只需要研究纯软件的技术,但进军 IoT 赛道后,包括机器智能技术研究院都要下沉到硬件,团队的扩张有很大一部分源于声学硬件人才的加盟,如雷锋网 AI 科技评论曾经采访过的冯津伟博士。
但不可忽视的一个现状是,语音尚未成为主流的交互方式。鄢志杰经常在内部分享提一句话,「今天语音交互技术的真实水平,与用户的期待、业界的 PR 存在明显的鸿沟。」针对这一点,鄢志杰认为可能有两个方式可以去着力。
首先是良好的交互设计。
交互设计本身是一门科学,它能够通过用户调研将主观的体验观感转化为客观的指标。这样一来,即使技术水平在短时间内无法有大的提升,但可以以巧妙的方式将技术的缺陷掩盖过去。在《夏洛特烦恼》里有一个情节,沈腾告诉老大爷,自己要找马冬梅。老大爷没听清,反问,「马什么梅」。这就是一个典型的交互案例。
如果系统在识别时没有完全听清,对正确理解用户的意图没有把握时,聪明的交互设计可以选择避免让用户直接重复所说过的话,而是换一种角度让用户再次重申自己的意图。
其次是如何找到应用场景,通过有效(useful)的交互结果让用户产生良好的反馈(reward),并最终培养用户习惯。
在汽车内的语音交互就是一个重要的强场景。在车载系统上用语音输入想去的地点,在技术成熟度和交互体验上都有了极大的提升,这也促使了正循环,逐步淘汰原有的键盘输入方式。如何畅想 IoT 可能与语音交互产生关联的场景?鄢志杰表示,「当万物互联,或者说万物智联真正走向纵深,在你一天所可能接触的任何场景都一定会有相应的 IoT 设备。」
从商业化的角度来看,在 IoT 时代下的语音交互智能,需要将互联网内容和服务通过 IoT 触达用户形成商业闭环,并做好端和云的布局。
鄢志杰也在会上提及了阿里巴巴的研究与实践,主要分为三个方面。
构建有深度、全链路、多模态的关键技术栈;
其次,产出低成本、易复制的智能化 IoT 方案;
再者,以打造标杆硬件为「手段」,以基础平台建设为「目的」。天猫音箱等产品和 NUI 自然交互平台就是明证。
鄢志杰反复重申的多模态交互概念,也让语音交互智能实验室不再局限于语音层面。这也就意味着,它与其他技术团队的交流也会变得越来越频繁和深入。鄢志杰表示,目前主要协作较多的还是计算机视觉团队和用户体验的团队。在未来,融合表情、动作等蕴含高语境的模态识别,或许也会成为人机交互的一个重点攻关方向。
在此,引用鄢志杰在年初的技术预测做为结尾:
「从 2018 年开始,人类与机器的交互方式将开始彻底摆脱任何形式的交互界面,变得更接近人与人的交互。这背后是对听觉、视觉、触觉,甚至味觉等多模态技术的全面融合。机器将能感知到人类在语气语态、肢体动作、面部表情等更丰富的表达方式,从而更智能的理解人类的意图。生活空间、交通空间、工作空间将是三个首先落地领域。」
附鄢志杰简介:
阿里巴巴达摩院-机器智能技术研究院语音交互智能实验室首席科学家。在 2015 年加入阿里巴巴前,就职于微软亚洲研究院,任语音组主管研究员。毕业于中国科学技术大学讯飞语音实验室,获博士学位。研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/ 手写识别、机器学习算法等。在语音及文本识别领域顶级学术期刊及会议发表多篇论文,长期担任语音领域顶级学术会议及期刊的专家评审,并拥有多项美国及 PCT 专利,目前是 IEEE senior member。