语音助手的涅槃关头，我们应该完全抛弃屏幕还是选择“语音+图形界面”？

2017/04/18 21:52

语音助手的涅槃关头，我们应该完全抛弃屏幕还是选择“语音+图形界面”？

奇点机智联合创始人林德康：前Google高级管理科学家（senior staff research scientist），主攻自然语言处理。在加入Google之前，林德康是加拿大Alberta大学计算机教授，发表过逾90篇论文、被引用超过12000次，他也是华人圈少数几个国际计算语言学会ACL Fellow之一。

雷锋网按：距离苹果Siri的推出已经快6年了，期间很多智能手机厂商也纷纷将语音助手列为卖点之一，但是其使用率一直不高，究其原因，还是语音助手的功能有限。不过随着深度学习带来的技术进展，以及亚马逊的Alexa的大获成功，智能语音助手获得了前所未有的关注，很多人都认为，语音将是下一个流量入口。

上周，乐视推出了带有智能语音助手的手机，这款手机搭载的语音助手就是去年雷锋网曾报道过的创业公司奇点机智的产品——“小不点”。对此，雷锋网对奇点机智联合创始人林德康进行了专访。

“小不点”宣传视频

奇点机智成立于2014年11月，两位创始人邬霄云和林德康曾在谷歌工作，并且在自然语言处理方面都有着深厚的技术和经验积累。该公司曾先后入驻微软创投加速器（MVA）第六期、以及TechCode孵化器。至于为何会选择做语音助手？林德康表示，最主要的目的并不是因为门槛的降低，而是因为语音助手确实有用。

虽然都是语音助手，但是“小不点”和苹果的Siri、微软的Cortana等不同。传统语音助手除了能够执行系统级别的功能，比如设置闹钟、打电话等，功能十分有限，更像是一个“搜索引擎”；“小不点”则抛弃了业界流行的单独的语音对话界面，转而帮助用户用语音来更便捷地操作手机里的各种APP，比如发微信红包、打车、定外卖等，更像是一个“动作引擎”。

因此，使用小不点的用户虽然是用语音在与手机交互，但是同时也在与手机的图形界面进行交互，这就是林德康提到的CGUI——Conversational Graphic User Interface。

模拟点击动作

对于小不点来说，其与同类产品最大的不同可能就是最后的实现过程了。

目前市面上大多数的语音助手度需要集成第三方应用的API，才能实现调用功能，然而这一方法存在很大的弊端，因为这会涉及到与第三方APP之间的谈判，覆盖的速度会很慢，而且很多语音助手都想将其他APP的功能集合到自己的界面之中，因此开发者们往往会有抵触情绪，这也是为什么苹果Siri这样的语音助手在推出这么多年之后，功能依然十分有限的原因之一。

语音助手的涅槃关头，我们应该完全抛弃屏幕还是选择“语音+图形界面”？

用小不点发微信红包

而小不点则是使用了安卓系统里面针对视障用户的Accessibility辅助功能，可以直接读屏，然后实施虚拟点击操作，因此不需要调用第三方APP的API。比如用微信发红包，用户说完“给XXX发10块钱的红包”之后，小不点就会打开微信，并查找联系人，然后跳转到微信发红包的界面，并预填好10块钱的金额，你需要做的只是确认发送。

不过，林德康表示，他们并不排斥接入第三方APP的API。

此外，小不点还有一个比较智能的学习功能。你可以通过这个功能教会小不点实现目前还不能完成的操作，而且小不点在学会之后，其他的用户未来也有可能使用这一功能。据悉，奇点机智已经为这一独特功能申请了专利。

比如，如果你想让小不点学会帮你“点一杯咖啡”，那么你可以直接告诉它“学习点一杯咖啡”，激活自动学习的功能，接下来你就可以开始按平常的步骤进行操作，并在所有操作完成后点击“结束学习”即可。由于小不点会记录这些操作过程，因此下一次只需要对它说“点一杯咖啡”即可自动完成所有步骤。（以下是在乐视手机上的演示视频）

由于以上两点优势，小不点能够在很短的时间内覆盖尽可能多的APP。据奇点机智透露，小不点目前已经覆盖了50多款常用的APP，具备上百种功能。

虽然目前小不点的公开版本还只能实现一轮对话，并不能一直在后台聆听，但是其内测版已经实现了多轮对话，可以通过语音实现连续操作，而不需要重新激活。（如以下视频所示）

「给小乐发微信」 ->「发送我在这里你快过来」->「发送我的位置」->「发送XXX和OOO的名片」->「视频聊天」

背后的技术

1. 语音识别

虽然奇点机智是一家创业公司，而且小不点研发周期也只有1年多的时间，但是林德康表示，目前小不点并没有采用第三方的语音识别技术，而是奇点智能一个5人左右的团队自己研发的，而且采用的就是谷歌的TensorFlow框架。

林德康向雷锋网透露，其实之前小不点曾采用百度语音服务来进行语音识别，后来才选择自己做。为什么呢？原因有以下几点：

如果使用第三方的语音识别的话，首先需要将音频传过去，然而传回来的一般就只有一句话。但是实际上在这句话有很多的可能性，而第三方只会在众多可能性里挑选一个它认为最好的传回来。但是如果是自己能够掌控这一过程的话，就可以将众多可能性先预留着，然而再下一步的时候看哪一种其实更说得通。
采用自己的语音识别技术可以针对某些特定场景进行优化，比如在识别微信通讯录里的人名的时候，如果采用第三方接口，不一定能够识别正确，但是如果是自己的语音识别技术，系统就可以参照通讯录里面的名字进行实时更正。
由于深度学习这一革命性进步的出现，让语音识别领域重新洗牌，几乎所有玩家都站在了同一起跑线上，大幅降低了后进者的门槛。因此虽然奇点机智起步较晚，但是实际上的技术差距并不大。

不过一个小团队的一年的努力，真的能够与大公司相比吗？虽然林德康并没有给出用来衡量语音识别的词错率（word error rate）的具体数值，但是他表示，在实测体验的过程中，两者表现差不多。不过，目前小不点只支持普通话，并不支持方言。

除了不断地投喂数据，训练语音识别的算法模型之外，还有哪些方法可以提高语音识别的正确率，降低用户在使用过程中的挫败感呢？林德康举了一个例子。他表示，研发会根据APP的名字来优化语音识别的准确率。比如“摩拜单车”的“摩拜”两个字在通用语料库里可能并不是排名最高的，但是对于小不点的用户来说，可能大部分时候指的就是“摩拜”，因此在优化时，他们会将这点考虑进去，来提高用户的使用体验。

而且作为一家小团队，奇点机智除了购买训练语音识别模型所需要的标记数据之外，还专门开发一款APP，让员工利用碎片时间，来专门标注训练所需要的数据。

2. 语义理解

由于公司的两位创始人都有NLP（自然语言处理）的背景，因此在这一部分会有一些优势。林德康在回国之前就是谷歌做自动问答系统的，他表示其中有很多东西都是类似的。

比如实体识别，包括人名、地名、电影名等专有名词，这些都是最基本的，但是要理解整句话的意思的时候，就需要推理功能了。比如当你说“我想去成都”，那么我们可能就会给你用携程等软件搜寻火车票或者机票，如果你说“我想去积水潭医院”，那么我们可能就会用打车软件给你预订车辆。因此只是将一个个的关键词列出来是不行的，还必须将每个词进行分类，然后根据词的表达结构做推理，才能真正理解用户的意图。

林德康认为，做自然语言理解最怕的就是边界，比如Facebook的Messenger Bot聊天机器人，里面上下文的关联太多。而做小不点这种类型的语音助手相对容易一些，虽然语音助手的可能性也非常多，但是它能做的东西是有限的，因此是存在边界的，比如不会用户不可能用携程去交水费。

语音助手的前景

2014年11月，奇点机智获得了徐小平100万美元的天使轮融资；去年3月底，奇点机智又获得了襄禾资本和NEA资本500万美金A轮融资。虽然已经获得两轮融资，但是作为一家创业公司，未来的盈利模式很显然也是需要考虑的事情。

林德康向雷锋网表示，目前团队的注意力主要集中在打磨产品，争取与更多的手机厂商合作，未来还会推出独立的APP，暂不考虑盈利的事情。

据雷锋网了解，由于奇点机智不会向合作的手机厂商收取费用，未来很可能会通过为第三方APP提供流量入口来获取盈利。比如目前用户想通过小不点来订餐，但是在用户没有指明APP的情况下，小不点会默认打开“饿了么”，如果你的手机里面没有饿了么，那么就会跳转到饿了么的下载页。当然，你可以直接告诉小不点，你想通过美团或者百度来定外卖。

对于语音助手未来的发展前景，林德康虽然也认同语音是下一个流量的入口，但是他认为“语音+图形界面”才是未来，而不是Alexa那种完全抛弃屏幕的做法。

虽然林德康表示，利用模拟点击来实现语音操控APP的功能是小不点的首创，但是近日网上流传出来的演示视频显示，三星的智能语音助手Bixby采用的也是和小不点相同的方式，这也从侧面验证了奇点机智方向的正确性。

不过，目前计算机还无法真正理解人类的自然语言，这也是为什么就连Facebook、谷歌等科技巨头的聊天机器人想要实现多轮对话依然十分困难，据外媒报道，Facebook的虚拟助理M和Messenger bot的进展很不顺利，其中M能够正确回应的请求只有 30%，使用情况令人失望。因此，奇点机智的这条路或许没有很高的技术门槛，但是却更加实际。