解剖语音交互背后的层级

2018/09/26 15:48

雷锋网按：本文来自微信公众号“琢磨事”，作者李智勇。

本文阐述了语音交互的4个阶段，现在语音交互还处在L1阶段，能以极高的准确率，在典型的环境下响应用户的语音输入，这一阶段的目的是通过便利性树立语音交互的习惯。L3阶段基本就能实现电影《黑镜》、《Her》中所展示的语音助手。语音交互从L1到L4比自动驾驶从L1-L5还难，而在当前，每个人对语音交互的预期都比L4还高。原文如下：

解剖语音交互背后的层级

（电影《Her》剧照）

自动驾驶有所谓的L1~L4，所以不管车企还是技术提供商都按着这台阶逐步爬坡，几乎每个人都理解，终极的自动驾驶是不太可能一蹴而就在短期实现的。语音交互领域的情形则正相反，虽然短期也就能达到类似自动驾驶L2的水平，但每个人的潜在预期都比L4还高。

语音交互的终极目标

语音交互的便利程度正好与人工智能的发展程度成正比，智能程度越高语音交互的等级也就越高，所以其终极形态与人工智能的终极形态类似。

如果抛弃特别夸张的想象来说，那语音交互要能达成《她》或者《黑镜》里描述的样子：

1. 当你输入数据给它后，它能够根据输入数据表现出不同的个性。

2. 在数据的处理上它近乎是全能的，只受个人权限的限制。

3. 如果真的赋予实体，那它可以感知周围环境并作出与人类似但很多方面会更优秀的反应。

今天的智能音箱和未来相对终极的语音交互方式以及设备相比，其差距要远大于286电脑和今天的Pad的差距。

一旦发展成上面这样的程度，那语音交互就会彻底的打开边界，而不只是我们使用数据的一种方式。甚至会成为生活的必须品。我们不会对iPhone产生依恋，但语音交互则会。

回顾下《黑镜》里描述的场景，可以对此有更好的理解：

女主人公的丈夫去世，过于思念自己丈夫的女主人公通过公开的自己丈夫的数据创建了一个有性格的，属于自己的语音交互机器人。这个机器人在绝大多数方面表现和女主丈夫一致。女主使用一段时间后，就升级了这服务，为这语音交互机器人赋予了和自己丈夫一样的形体。

这看着非常科幻，但实际上一旦语音交互达到上述程度，那这类事情几乎一定发生。既然我们能接受很宅的躲在家里，那就一定能接受这样一种非真实，但更完美的电子助手进入心灵的世界。《她》这部电影虽然没拍，但如果有为个性化语音交互系统塑形的服务，主人公也是一定会接受。

在这里互联网反倒是限制了我们的想象力，因为互联网更多的体现的只是工具的属性，但实际上语音交互系统所要涵盖的范围要比互联网大的多。当前之所以它能做的还不多，主要是层级还不够。

语音交互的L1，L2，L3

我们可以这样定义语音交互的L1阶段：

能以极高的准确率，在典型的环境下响应用户的语音输入。极高的准确率最低应该在90%+。这时承载语音交互的设备主要负责功能性的提示与反馈（灯与屏幕等）。

当前所有与语音相关的公司，事实上都是在达成L1的路上。L1的出口为语音交互习惯彻底树立，人们面对每款设备的时候会首先想到用语音操作，而不是遥控器或者屏幕。

在L1阶段语音交互更像是自动化程度、精准程度更高的搜索，但搜索的范围扩大了。不单是局限于已有的数字内容，也扩展到家电、视频通话等正常搜索不会覆盖的领域。

我们可以这样定义L2阶段：

能以极高的准确率识别出交互的当事人和环境，然后进行个性化的交互。这时承载语音交互的设备通过摄像头等传感器能够实时进行感知，可以进行适当移动，初步拟人。

L2阶段体现的是个性化，不再是千人一面。如果L2得以达成，那《她》所描述的场景是可以实现的。语音交互可以定制出性格，而这种性格很可能确实满足某个人的心理期待。

在L2阶段，语音交互会打破工具的边界，尝试走入过去重来没被搜索等介入的领域，比如排遣寂寞。现在的各种App是按照领域来切分的，而在L2阶段，那所有App的边界会被打破，信息的输出是按照人来切分的。也就是说不再有BAT头条、美团等等，而只是有张三的语音交互助理，李四的语音交互助理。

我们可以这样定义L3阶段：

只要有数据，那语音交互系统的能力是可以无边界扩展的（包括个性和能力）。交互设备可以进行拟人化输出。

L3阶段体现的是后端内容扩展的无边界特性，不再是有多少智能就有多少人工。以及拟人化输出，拟人化输出包括移动，说话的语调，风格，姿态等。

如果L3阶段得以实现，那《黑镜》描述的场景是可以实现的。只要有一个人充分的数据描述，那就可以立刻模拟这个人出来，然后给他赋予一个真实的身体。

在L3阶段，语音交互及其载体会是社会生活，甚至家庭的一部分。

本质上从L1到L3体现的是数字化程度的不断加深，智能程度不断加深，同时数字和智能又按照自己的理想形态进行物化的过程。

未来三年必然会达成的成绩

现在与语音交互相关的公司核心在做的就是L1阶段的事。这个时候虽然在人工智能的大趋势里面，但本质上智能并没那么关键，关键的是便利以及能输出的内容。这两者会推动树立语音交互这种习惯。

如果要在数量级上进行判断的话，那三年后可以达成的目标是：

每年有10亿台支持语音交互的设备售出。
至少故事机、电视机、电视盒子、汽车前后装、白色家电、灯、闹钟等会加入这种特性。手机、Pad、电脑这些大品类上语音交互的能力则会变成标配，但使用频次估计需要更长的时间进行提升，在最初交互频次会很差（这点在前面的文章里提到过，语音交互本身并非一种独立的交互方式，而是同其背后的内容深度绑定的，我们很多的应用实际上是针对手机和键盘鼠标操作优化过的）。
凡是电子设备都可以用语音来进行交互。
语音交互不会挑设备，同之前的交互相比，它可以更加低廉，理论上只要麦克风并且能联网就足够了。这和为设备加入键盘鼠标或者屏幕相比，代价要低很多。这点上做出表率的仍然是亚马逊，亚马逊不停的推出新的设备如微波炉、车载设备等。当然不同设备上语音交互的层次是不同的，有些设备比如白色家电上面语音交互会限制在一到三轮以内。

在更高一级的视角下面，所有当前的努力其实本质作用就一个：通过便利性树立语音交互的习惯。习惯背后跟随的是用户时间。这两者会为下面的进一步发展提供试验田。只有达成了这一目标，从技术到产品再到用户这一循环才算真正完成了第一次迭代。

小结

语音交互看着太简单了，不过是说话而已，所以很容易被误解为像说话一样的交互就是现在语音交互设备所应该能干的事。其实不是的，语音交互的从L1到L3有可能比自动驾驶从L1到L5还要漫长。

对话鄢志杰：语音行业十五年老兵的沿途风景