语音交互的痛点，为什么扎克伯格精心打造的AI“贾维斯”还会出糗？

2016/12/26 13:19

雷锋网按：作者陈孝良，博士，声智科技创始人，曾任中科院声学所副研究员和信息化办公室主任，中科院上海高等研究院客座，北京市公安局首届网络应急专家，主要从事声学信号处理和 GPU 深度学习算法研究工作。

最近扎克伯格在Facebook上传的视频---其惊心打造的AI管家“贾维斯”着实吸引了不少眼球，再次唤起了人们对人工智能未来的遐想和期望。以下是其在Facebook上的视频，还没有看的朋友可以戳进来看一下.

&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp; &amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;gt;

扎克伯格Facebook展示AI语音管家“贾维斯”的视频

当记者到扎克伯格家中真实体验的时候，“贾维斯”似乎并不给力，不仅连续多次呼叫“贾维斯”才有反应，而且还经常无法正确执行命令，特别是“贾维斯”似乎更不爱听扎克伯格夫人的命令，唯一让人宽慰的就是在播放歌曲方面还差强人意。

为什么会出现这个情况？扎克伯格在博客中坦诚了问题：类似手机近场训练的AI和类似Echo可以响应从任何角度命令的AI是不同的，后者显然更加复杂而且短期内更适合垂直场景交互而不是通用语音交互。

事实上，体验扎克伯格“贾维斯”的尴尬，也正是当前语音交互技术升级期的尴尬。语音交互是人机交互最主要的方式之一，包括了声学处理、语音识别、语义理解和语音合成等核心技术。

声学处理主要是仿真人类的耳朵，保证机器能够听得准真实环境下人的声音，语音识别则是把听到的人声翻译成文字，语义理解则分析这些文字的意义，语音合成就把机器要表达的文字翻译成语音。这四项技术虽然独立发展，但实际上无法割裂，同时在其他技术的配合下，才能形成一次语音交互的完整链条。

从当前的技术水平来看，这四项技术已经达到了商业初级可用的阶段，但是距离我们满意还应该有3-5年时间的距离。即便是被国内几家公司号称最为成熟的语音识别，其实也在近场到远场的技术升级期。

以Siri为代表的近场语音识别已经发展了60多年，特别是在2009年以后借助深度学习有了实质性提高，但是正如扎克伯格所说的，当真正产品落地的时候，我们发现用户真正需要的却是类似Echo所倡导的远场语音识别。显然，这又是一个崭新的技术领域，因为拾音距离的扩大带来的问题不仅仅是语音信号的衰减，而且还带来了复杂的真实环境以及复杂的用户习惯。

语音交互的痛点，为什么扎克伯格精心打造的AI“贾维斯”还会出糗？

以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景，比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号，同时还要求用户满足标准发音，其识别率才有可能达到95%以上。但是，若声源距离距离较远，并且真实环境存在大量的噪声、多径反射和混响，导致拾取信号的质量下降，这就会严重影响语音识别率。同样的，我们人类在复杂远场环境的表现也不如两两交耳的窃窃私语。

通常近场语音识别引擎在远场环境下，若没有声学处理的支持，比如麦克风阵列技术的适配，其真实场景识别率实际不足60%。而且，由于真实场景总是有多个声源和环境噪声叠加，比如经常会出现周边噪声干扰和多人同时说话的场景，这就更加重了语音识别的难度。因为当前的语音识别引擎，都是单人识别模式，无法同时处理多人识别的问题。

显然，扎克伯格的“贾维斯”过渡到以Echo、机器人或者汽车为主要场景的时候，近场语音识别的局限就凸显出来。为了解决这些局限性，利用麦克风阵列进行声学处理的重要性就凸显出来。麦克风阵列由一组按一定几何结构（常用线形、环形）摆放的麦克风组成，对采集的不同空间方向的声音信号进行空时处理，实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能，进而提高语音信号处理质量，以提高真实环境下的语音识别率。通常经过声学处理以后的真实场景语音识别率可以达到90%左右。

事实上，以麦克风阵列为核心的声学处理并不是什么新技术，声学本来就是一个古老的学科，而且阵列处理技术早就在军工领域广泛应用。我们常常提到的雷达和声纳，实际上都是大规模的阵列信号处理技术，这是国防对抗的耳朵，机器学习还无法取代这些传统技术。

语音交互的痛点，为什么扎克伯格精心打造的AI“贾维斯”还会出糗？

语音识别倒是50年代后才兴起的新技术，我国的语音识别研究稍晚一些，1958年才起步，当时中国科学院声学研究所利用电子管电路识别10个元音。由于各方面条件的限制，中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年，中国科学院声学研究所才开始了计算机语音识别。2009年以后，由于深度学习的突破以及计算能力和数据积累，才让语音识别有了近20年来最快的发展，但是这也仅仅提高了近场语音识别的效果。最近几年才开始兴起的麦克风阵列技术就是为了应对远场自由语音交互的需求。

但是，麦克风阵列技术也有很多难点问题需要解决。麦克风阵列仅实现了真实环境中的声音信号处理，获得了语音识别要求的声音，机器可以听得见人的命令，但是这个命令所表示的文字和意义却是云端所要解决的，因此端和云这两个系统必须匹配在一起才能得到最好的效果。

近场语音识别当前都是深度学习训练的结果，而深度学习的局限就是严重依赖于训练样本库，若声学处理的声音与样本库不匹配则识别效果也不会提升。从这个角度应该非常容易理解，物理世界的信号处理也并非越是纯净越好，而是越接近于训练样本库的特征越好，即便这个样本库的训练信号很差。显然，这是一个非常难于实现的过程，至少要声学处理和深度学习的两个团队配合才能做好这个事情，另外声学信号处理这个层次输出的信号特征对语义理解也非常重要。不仅如此，麦克风阵列处理信号的质量还无法定义标准，声智科技正在尽力推动这个事情，但是难度非常大。

从上面的描述小结来看，当前的麦克风阵列＋近场语音识别的端云识别其实并不是理想的技术架构，因为这限制了将来技术的突破。麦克风阵列＋远场语音识别的方案应该是比较理想的，但是当前这面临着两个难题。

其一就是让诸如苹果、微软和谷歌等巨头放弃近场语音识别的优势本身就是一件很难的事情。当年诺基亚就是因为功能机的巨大成功才导致不敢All in错过了智能机时代。所以语音识别领域才会有亚马逊这类似乎不搭界的企业做出了迄今还算唯一成功的产品Echo。

其二就是远场标注数据的严重缺乏，而且这类数据暂时还无法直接付费买来。因为但凡我们雇人采集和标注数据，就很难让大量的用户遵循自然的方式来录制声音，这是人性难以避免的。这里可以做个简单的实验，如果非专业演员，若给你个脚本，你会怎样去朗读或者表达呢？

“贾维斯”的唤醒也同样面临诸多问题，给人工智能产品取个名字是当前无法避免的问题，这和人类取名标示一样，端上的声学处理还要借助这个名字来进行测向和后续处理。因此语音唤醒也直接决定了远场语音识别的效果，以Siri为代表的近场交互刚开始通过人工按键避免了这个问题，但是远场交互则无法再借助人工参与的方式实现。

远场语音唤醒的难度现在比远场语音识别还要大一些，其面临的环境更加复杂，而且当前还没有更令人欣喜的技术出现。语音唤醒技术目前主要还是参数式、拼接式和训练式，参数式的方法主要是在芯片中应用，也几乎被淘汰了。拼接和训练其实类似，都是借助深度学习的模型实现，只是数据来源不同而已，拼接从大库中剪裁数据进行训练，而训练则直接对用户自定义的唤醒词进行大规模数据采集和标注，然后再进行深度学习训练。显然训练的唤醒效果会更好，这兼顾了用户叫唤醒词的语速、语调和口音，但是这项技术的成本非常大，需要覆盖的用户群体非常大，而且和上面识别中提到的难点一样，采集的数据总是容易受到用户刻意发音的干扰，实际上也很难做到真实，但是不断的迭代会快速提升语音唤醒的效果。

总的来说，“贾维斯”的尴尬其实是个普遍现象，远场语音唤醒暂时还是个世界难题。这不是机器听觉达到人类水平就能令人满意的，假如突然有个老外叫我们的中文名字，我们的反应或许也不会太过敏感。事实就是这样，我们还暂且不提远场语音唤醒所要面对的复杂环境和多人唤醒问题，当前机器还只能勉强响应声音最大的唤醒，还很难真的让机器自主决策响应，这还需要时间去积累数据和迭代算法。另外也要强调下，语音唤醒和识别率并非只有一个词错率WER指标，还有个重要的虚警率指标，稍微有点声音就乱识别也不行，另外还要考虑阈值的影响，这都是远场语音交互技术中的陷阱。

语义理解在当前远场语音交互的地位暂时还不是太高，因为前面提到的各项技术实际上还在成熟之中，假如10个字错了3个字，实际上语义理解就很难做了，特别是当前远场语音交互中的语境缺失更是最大的障碍。举个例子，我们随机录制一句纯净语音进行了一个实验（简单的比如人名），事实上平均超过60％的人无法准确写出其中对应的正确中文。但是语义问题倒是有个工程化的解决方案，就是限制垂直场景，比如音箱、车机和安防等领域，这些场景单靠搜索也能解决用户控制机器和简单对话的问题。

语音合成也是一个很大的麻烦，我以前有篇文章做了分析，从参数合成到拼接合成，以及谷歌的Wavenet和Amazon的Polly。我们现在的语音合成技术实际上越来越接近人类自然的流畅，但是还无法做到语调和语速的自适应变化。比如机器生气了应该是什么声音？机器害怕了又该怎样？等等诸如此类的，这样一算我们就明白了PPT公司所谓的人工智能又有多么可笑了。千万先别谈理解语言这个人类最为复杂的进化成果，就把我们所提到的种种问题做到用户满意真的就是谢天谢地了，也不要心存侥幸，这可能需要很多人很长的时间或许才有些收获。

远场语音交互还面临一个很大的难题，这就是软硬一体化的问题，实际上很少有一项技术类似远场语音交互这样要求的链条如此之长。从硬件、算法、软件到云端，缺一个链条远场语音交互的效果就无法体现出来。硬件是所有算法和软件的基础，当前麦克风阵列的硬件体系还不成熟，包括麦克风器件和相关芯片，特别是在控制成本的前提下，很难达到语音信号处理的要求，这也是诸如亚马逊、谷歌甚至微软这类企业不得不做硬件的根本原因。硬件迟早会类似PC和手机一样趋于成熟，但是推动产业链条的升级，特别是制造业的升级不是一朝一夕的事情，这个周期也必须要等待成熟。但是如果仅仅等待，很可能就是起大早赶晚集错过了。

因此，不难理解为何扎克伯格的“贾维斯”宣传视频与真实体验之间的差别。远场语音交互中的声学处理、语音唤醒、语音识别和语音合成正处在从近场到远场的技术升级期，语义理解更是刚生萌芽。虽然当前让机器理解人类语言暂时还看不到希望，但是至少各项技术已经相对成熟，商业化的应用则会加速这些技术的成熟周期，甚至已经超过了芯片领域的摩尔定律发展速度。

相信未来3-5年期间，我们会用上可以自然语音交互控制的人工智能产品，至少也能实现扎克伯格视频中所演示的效果。所以这个行业的各家应该合作起来，共建标准共享成果，共同努力开发市场，人工智能时代我们国内更应该诞生更多伟大的企业。