远场语音交互体验的思考：Alexa为什么不用屏幕和多轮对话？| 深度

2017/04/05 17:18

雷锋网按：本文作者陈孝良，来自微信公众号“声学在线”（ID：soundonline）

随着亚马逊的智能音箱Echo销量逼近千万，Alexa无疑成为了全球范围内截至目前最为成功的消费级AI产品，也可谓是亚马逊这家电商公司在人工智能领域一次的跨界奇迹，极大刺激国内各个科技公司也纷纷进入语音交互领域。根据内部人士提供的数据，包括阿里、百度、腾讯、华为、小米、联想、海尔、科大讯飞等国内已经有超过200多家公司正在研发类似Echo的智能音箱。

但是，我们真的认真琢磨过亚马逊的Alexa吗？或者我们真的了解评测过Echo吗？尽管Amazon在这个领域持续投入了多年，但是Amazon一向对于PR的宣传审核严格，实际上国内对于亚马逊关于技术细节方面的思考，知之甚少。

最近EmTech Digital人工智能峰会上，MIT Technology总编辑 Jason Pontin 对话亚马逊Alexa负责人 Toni Reid，透漏了一些Toni Reid关于消费级语音交互系统的思考。Toni Reid经历了从 Alexa 从无到有的全过程，在这次谈话中，Toni Reid也解释了Alexa为什么不用屏幕以及多轮对话的原因。

Toni Reid认为，语音是最简单、最自然的交互方式，也是人类沟通最基本的方式。所以，Amazon在为Alexa设计硬件载体Echo的时候，并没有为其加上屏幕。这种做法其实是增加了难度：用户只能通过纯语音来使用设备，而并没有屏幕反馈作为辅助。当然，Amazon也正在Fire TV和Kindle平板电脑等设备上尝试部署Alexa，但这涉及Alexa比较大的改变。

Toni Reid更是坚持认为，当用户下达语音指令后，Alexa实际上只有一次机会去部署相应的动作，而不能去和用户来来回回的多轮对话。一般而言只有两次对话机会，如果第三次对话还没弄清用户需求，就算彻底的失败了。这样的反复对话对用户来说是很糟糕的体验。

这是两个非常值得国内用户思考的点，从这两个点也可以展开来思考更多问题，我们期望国内能够做出超越Echo的产品，至少也要比肩Echo的销量和影响力。

一、为什么是Amazon脱颖而出？

这是一个很奇怪的问题，确实Amazon更像一个电商而不是高科技的公司。实际上，Amazon在没有谈及Echo的销量之前，Amazon也并没有被产业和媒体关注，同时也没有被归类到人工智能公司。因为相比Google、Microsoft、Apple、Facebook这类公司，甚至包括和国内的百度、阿里和腾讯这些公司比较，Amazon实在也拿不出像样的、同其他公司AI研究院一般提供的PPT，况且承担重任的Lab 126还是一个依靠收购组建的大杂烩式的产品公司，更难堪一点的是，Echo一开始的项目优先级也是最末的。为什么会是这样一个情况？

这个，有偶然，也有必然。若从科学实验的角度来看，偶然性确实很大，成功的实验往往都是那么偶尔的一个闪光，但是这个闪光却也是亚马逊长期投入的必然结果。

首先来看，Amazon的优势在于没有太大的技术包袱，Amazon显然对于成立研究院没有太大兴趣，正因为没有过多的历史限制，才会让产品和技术结合的更加紧密，而不至于让产品思维被工程师所束缚。特别重要的是Amazon Echo切中的市场痛点是远场语音交互，这让Google、Microsoft、Apple长期积累的近场语音交互优势几乎没有意义，显然Alexa更懂用户对于远场语音交互的需求。

其次来看，Amazon对于技术细节的耐心实际超越了Google、Microsoft这些AI巨头，这里要把Apple拿出来，因为Apple做产品的思路还是和Amazon比较一致的。Amazon和Apple显然对于技术PR和论文都没有多大兴趣，但是对于产品和专利却极其上心。从公司角度来看，PR和论文确实耗费公司极大的精力，这两者对于创业公司来说可能是提高知名度的重要方法，但是对于成熟公司，知识产权、产品和营销能力显然更加重要，而且这也决定了公司对于技术的耐心程度。

因为过多的PR和论文会让研究人员忽略对于技术细节的把控，当公司的技术人员动不动就谈技术趋势和架构的时候，这家公司反而危险了，那么请问谁来把控技术落地时候的无数个细节问题？没有细节的持久打磨，试问哪个用户会为此买单？当掏出钱袋的那一刻，用户的体验永远是第一位的。

最后来看，技术人员往往容易陷入科学幻想，总是喜欢做很多超前的事情。这在技术领域是必要的，但是不要让工程师甚至科学家过多干涉产品定义也是非常重要的一个方面。市场上永远都是满足当前需求的产品才能获得用户，而不是你的技术多么高深，显然Amazon更是轻装上阵，灵活的产品思考是Echo定义的关键因素，这样才能更容易懂得用户。

远场语音交互体验的思考：Alexa为什么不用屏幕和多轮对话？| 深度

二、语音交互技术到底成熟没有？

这个问题之前，可以先回忆一下，我们平时能看到身边多少人在用语音交互？事实上这很少，除了汽车导航的时候，可能大部分时候只是偶尔秀一下，而且还是对着手机喊话。这就说明了问题，语音交互其实根本就不成熟。

这就不对了，因为几乎所有的AI公司都在号称语音识别已经接近甚至超越人类了，不要信以为真，别说远场语音识别，就连近场语音识别也做不到。那些所谓的指标都是论文指标，仅仅是在特定的测试集合下所测得结果，可以理解为想要怎样的指标几乎都可以优化出来。So What？这又有个啥子意义，因为我们人类从来不是实验室的小白鼠，我们需要的不是实验环境下的技术应用。

语音交互包括了语音识别和语义理解两大部分。我们就从语音识别这点来看，仅仅这点还有很多很多的问题需要解决。语音交互的落地首先要解决的是真实场景下的语音识别，这就要求要考虑说话者与机器的距离，要让说话者在屋子任何位置下的语音命令都能被机器识别。而这又牵扯到对噪声、混响、回声等干扰声音的处理，这是光靠所谓深度学习是解决不了的。

显然，所有AI相关技术的落地都会碰到场景的问题，而场景则是物理学的范畴，物理的进展并没有像AI频繁的会议宣称的那样有飞跃式的进步。但是不解决场景的物理问题，单靠计算机科学就大谈人工智能改变人类为时过早了。玩笑一下，拔掉电源计算机还能工作不？

三、语音助手要不要屏幕的问题？

Toni Reid提到，Alexa为了让用户适应语音交互的方式，特意去掉了屏幕。但是这不代表屏幕就不重要，虽然语音是最简单、最自然的交互方式，但是我们80%的信息还是依靠视觉获取，即便语音交互的时候我们也依赖很多肢体表达来确认我们是否得到了有效反馈。

这一点在Echo还是做不到，至少这个阶段来说，这是一个无奈的折衷选择。其中有一个重要的点Toni Reid没有提到，因为Amazon并不想把Echo定义为一个音箱，而是一款全新的AI品类，但是创造一个新的品类也意味着巨大的风险。

所以Amazon选择了稳妥的从音箱品类进行升级，当然苹果也选择了从耳机进行升级。这就特别要注意，传统品类升级的时候一定要避免与其他品类的冲突，比如假设给Echo加上屏幕，用户会把这个品类看成音箱还是平板？我想Amazon更愿意用户把Echo看作为音箱，即便他们非常不情愿。

事实上，国内很多创业公司都在验证Amazon的眼光有多么独到，因为我们已经看到太多配置屏幕的机器人和智能音箱，甚至还有不少耳机产品。其销量为什么不好？为什么不换个角度想想，这种场景下，用户买个iPad Mini是不是会是更好的选择？

四、当前阶段用户真的需要多轮对话？

Toni Reid的观点很明确，Alexa暂时不需要多轮对话，因为这会让早期用户的体验更糟糕。笔者也坚持这个观点，但是有几点是必须补充的。

首先来看，现在的语音交互实际上都是语音控制，确实这个阶段我们真的很难让计算机理解人类语言。在这个前提下，真正的多轮对话实际上很难做到，当前更多的是解决基于场景的搜索问题。当不能真正理解用户思想的时候，多出的对话若不能解决用户的需求，反而是用户极其反感的地方。简单想想，真正使用一个产品的时候，面对着冷冰冰的机器，难道让用户和机器沟通要比和女朋友沟通还要费劲吗？抱歉，即便作为用户，笔者也只是想要一个绝对听从于我指令的音箱而已，声智科技经常会测试各个厂商的Demo，但凡偶尔唤不醒或者一句没听懂我就挺恼火的。

其次来看，我们怎么理解多轮对话？Toni Reid提到不希望Alexa问到第三遍，这实际上还不是一个多轮对话的问题，而是问答反馈的问题。也就是说，真正的多轮对话可能不需要，但是问答反馈还是必须得，我们知道Echo由于没有了屏幕，先天丢失了用户交互过程中的反馈途径，这个时候语音的反馈就显得比较重要。但是这是一个很大的坑，到底该如何把握这种问答反馈，既让用户快速获取满意的答案，又能在模糊的时候通过一次问答来解决用户问题，我想这个方面真的需要仔细研究Echo，Echo的成功就是仔细思考和打磨了每个细节。

事实上，可以连续唤醒的单轮问答对话才是智能音箱的核心技术所在，简单可以理解为智能音箱的唤醒是第一优先级的，必须支持连续的无数次唤醒，做到有问必答，也就是说用户可以随时唤醒并且打断其他对话直接唤醒，而且必须保障唤醒率和虚警率，虚警率太高显然不行，这会让设备总是莫名其妙自动对话。当然，声智科技的这项技术当前还主要针对大客户定制，开发板暂时还不支持这项功能。

五、深度学习真解决了语音交互问题？

这个问题实在不好解释了，引用微软首席研究员刘铁岩的一句话，顺便也推荐感兴趣的同学看看刘研究院所做的《人工智能的挑战与机遇》演讲，这给国内火热的人工智能泼了一盆冷水，但是我相信所有从事这个行业的技术人士都是有清晰认识的。

“所谓深度学习实验室，就是一批会调参的人，没有他们深度学习就没那么好用。虽然是句玩笑，但是深度学习要调的东西确实太多了，比如说训练数据怎么来，怎么选，如果是分布式运算怎么划分，神经网络结构怎么设计，10层、100层还是1000层，各层之间如何连接，模型更新的规则是什么，学习率怎么设，如果是分布式运算各个机器运算出来的结果怎么聚合，怎么得到统一的模型，等等，太多需要调的东西，一个地方调不好，结果可能就大相径庭。这就是为什么很多论文里的结果是不能重现的，不是说论文一定不对，但至少人家没有把怎么调参告诉你，他只告诉了你模型长什么样而已。”

那么，从上面几个问题继续引申，我们到底应该怎么看待持续火热的Alexa和Echo？国内公司该是怎样理解和思考人工智能，笔者拙见，也提几点个人的看法和建议，期望AI能在理性的环境中成长。AI是未来的趋势，创业者长期的事业，绝对不是一蹴而就的事情。

1、AI最大的问题是不懂人脑机制

上面也提到了深度学习的问题，我们大量的工作其实就是工程师所做的事情，不断调参优化，这是一个持续优化的过程，最终结果不可能是颠覆性的。因此，不能指望理论上所不能证明的事情，通过调优就能实现。

所以AI最大的问题还是会归结于最原始的哲学问题，人类的智慧是怎么来的？ AI根本不懂人脑的机制，怎么超越人脑？这点就从笔者最熟悉的声学来看，这个领域为啥大家都不爱进入，甚至本科都不开设这个专业？甚至声智科技成立以前，很多大众媒体同学都不知道还有个中科院声学所。

因为声学100多年没有啥实质性理论突破了，虽然在水声领域我们国际上也很领先，但是和深度学习类似，我们也是在做大量实验和调优的工作，这就很难产生颠覆性的贡献。这么久没有理论上的突破必然会导致公众的遗忘，甚至再过百年都看不到诺贝奖的希望，谁还来搞呢？毕竟学子年轻的时候都充满了希望，但是怎么做到呢？

远场语音交互体验的思考：Alexa为什么不用屏幕和多轮对话？| 深度

2、语音识别的最大瓶颈在于声学

前面提到，语音识别最大的落地还是在场景之中，这涉及了语音交互用户场景的变化，当用户从手机切换到类似Echo智能音箱或者机器人的时候，实际上麦克风面临的环境就完全变了，这就如同两个人窃窃私语和大声嘶喊的区别。

前几年，语音交互应用最为普遍的就是以Siri为代表的智能手机，这个场景一般都是采用单麦克风系统。单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是，若声源距离麦克风距离较远，并且真实环境存在大量的噪声、多径反射和混响，导致拾取信号的质量下降，这会严重影响语音识别率。而且，单麦克风接收的信号，是由多个声源和环境噪声叠加的，很难实现各个声源的分离。这样就无法实现声源定位和分离，这很重要，因为还有一类声音的叠加并非噪声，但是在语音识别中也要抑制，就是人声的干扰，语音识别显然不能同时识别两个以上的声音。

显然，当语音交互的场景过渡到以Echo、机器人或者汽车为主要场景的时候，单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性，利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构（常用线形、环形）摆放的麦克风组成，对采集的不同空间方向的声音信号进行空时处理，实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能，进而提高语音信号处理质量，以提高真实环境下的语音识别率。

但是仅靠麦克风阵列提供的这些技术还是不够的，这只能解决部分远场化的问题。事实上，真实场景下我们需要更复杂的识别技术，能不能不依赖于云端？能不能同时追踪和识别多个人讲话？能不能识别语调和情感？等等这些环节，都是急需要解决的问题？而很多技术的瓶颈就在于声学能否也有一个较大的突破。

远场语音交互体验的思考：Alexa为什么不用屏幕和多轮对话？| 深度

3、语音助手核心在于场景和性格

语音助手包括了两个大的技术环节：语音识别（前端声学+后端识别）和语义理解（+内容聚合）。语音识别其实不涉及太多智能问题，仅仅只是AI的一个管道，智能的核心还是在于语义这个环节。语音识别和场景也密切相关，不同的场景需要不同的模型适配，这才能保证其识别率。语义更是需要场景的辅助，毕竟圈子的语言还是有很大差异性的。如果不能迈过这个门槛，语音交互的效能就会极具降低，对用户来说呈现不出来足够的吸引力。

另外一个问题就是语音助手本身也要定义一个性格，即便是冷冰冰的问答控制，也要让语音助手体现出个性来，这也包括语音合成的语调问题。比如苹果Siri很调皮，微软小冰很小色，亚马逊Echo很热心等等。当然，这更多是AI产品经理的任务，现在这个领域AI产品人才也是奇缺。

4、好的产品并不要100分的技术

Amazon的Echo显然不是百分的产品，其技术也远未成熟，但是这不妨碍Echo的热销，只要达到80分过了用户心理预期的门槛，这就是一款好产品。苹果的历代产品也都是这个路径走过来的。所以这就不要让AI技术人员过多定义产品，机器人就是个不好的例子，总是不断拔高用户预期这非常不妙。产品满足的是用户需求，而不是研发人员自我炫酷的心态。更好的产品设计应该是充分发挥技术的优势，而巧妙避过技术的缺陷。

比如麦克风阵列，Amazon采用这项技术核心就是要解决远场语音识别问题，而且这也是当前阶段唯一有效的技术方法。AI产品经理更需要了解麦克风阵列技术的优势和缺陷，将其融合到产品之中，而不是浪费很大精力钻研麦克风阵列与深度学习之间的关系，甚至总是在琢磨如何才能替代麦克风阵列，这就本末倒置，应该让专业的公司做更专业的事情。

5、没有历史包袱的产品更易成功

单从Amazon在AI领域崛起来看，国内的消费级AI战场鹿死谁手还真不一定。领先布局的BAT不一定能突围，紧跟其后的小米、华为、联想、金山也不是没有机会。从PC互联网和移动互联网的发展来看，没有历史包袱的产品更容易获得成功。说到这点总是难免会提到诺基亚、摩托罗拉、爱立信等最近十年的变化，当然PC时代会有更多的例子，只是年代比较遥远了。

事实上也简单，成熟的公司总会有成熟的架构，百度总裁张亚勤最近强调公司的中层力量可能会比较阻碍创新，这是一个事实，谁也不愿放弃舒适安逸的环境去适应新鲜的事情。毕竟，这意味着可能要放弃陪伴家庭，放弃自我休闲，所以我很敬佩创业群体，这是一群有理想还能做事情可爱的人，而事实也证明，大都是创业公司创造出了奇迹。无论百度、阿里、腾讯、小米、京东还是华为，他们曾经都是很小的创业公司，也曾经卖也卖不掉。

6、感知和认知是两个层面的问题

毋庸置疑，这也是人工智能的两个层面，感知更多关注的是数据，认知更多关注的是推理。显而易见，现在我们还在感知的阶段，这个阶段所强调的智能其实不重要，控制才重要。可以把智能看作噱头，而控制才是根本。特别是真实场景下的感知问题，这是一切AI的基础。

那么感知就牵涉到多学科融合的问题，比如真实场景下的语音识别问题，首先就是真实场景下获取数据的声学问题，这更多是一个物理学科的问题，而数据处理后又要涉及深度学习的问题，这又是一个计算机学科的问题，如何平衡这两类技术并且融合成一种新的技术体系显然也是一个难点。何况感知还包括了器件、芯片等硬件技术，比如语音识别常用的麦克风，消费级产品都是标量麦克风，矢量麦克风在数据感知上更具优势，但是怎用应用以及如何降低成本都是一个技术和产业的问题。

7、核心竞争不是技术，而是产品

我们知道，技术特别是算法本身不容易形成壁垒，例如深度学习也只是一个工具。算法只是一些体现技术思路的代码，这些代码不可能形成壁垒，但是有相当高的技术门槛，这也是人工智能公司基本都以博士为主的原因。由于算法很难直接形成有商业价值的专利和标准，所以发展一定阶段就会开源，开源的结果就是训练一段时间，大家都可以训练一个还可以用的模型出来，核心问题只是怎么把这个模型优化得更好，更能落地到实际产业之中。

所以人工智能的核心竞争力不在于技术本身，而是公司的格局，格局不清晰很可能竞争不过从事AI的产品公司。比如，产品公司如果把算法做到场景里面，场景是可以形成壁垒的。比如医疗领域做到No.1，肯定就比通用的有优势，这里面不管你是通过资源支持，还是BD，都是产品公司的优势。另外场景和数据密切相关，因为收集数据是需要周期的，处理数据是需要投入巨资的，所以在特定场景下积累到一定规模的数据也是可以形成壁垒的。

因此，巨头把大量精力花在技术方面显然得不偿失，单点技术更适合创业公司来搞，因为技术从来都是苦行僧的活，创业公司的人才显然没有宽敞明亮的环境可以聊天做PR。Amazon等国外巨头的做法非常值得借鉴，投资和收购都是非常快捷的一种方式，事实上，时间才是最大的一种壁垒。

8、理性看待人工智能的技术红利

很多大佬都在强调，当前AI相关的人才成本太高，这不是一个产业的好现象。简单类比来说，因为深圳的产业工人成本增高，导致很多制造产业向东南亚方向转移。其实很多人也不明白为何AI相关的技术人才会如此自信，如果从PC到移动到AI的产业变化来看，事实上漫天要价的做法并不理智，如何最快落地到某个具体场景之中，充分挖掘技术红利跟随公司成长才是明智的选择。

而且从2017年的投资案例来看，人工智能的天使融资几乎很少了，也就是说人工智能技术创业这一波基本上各就其位，各家创业公司早就不再关注PPT和DEMO了，所有的客户都会强调指标和细节，无数的细节就会折腾死一波创业公司。现在，成败的关键在于各家对于细节的把握。事实上，笔者一直在估算这波人工智能创业的低谷期，这是必将到来的，从来没有哪个行业是一帆风顺的，波浪起伏才是恒久远。这个时候，再大谈所谓的技术红利，显然也是不合时宜了。

9、不要忽视人工智能的商务拓展

大型公司有没有人工智能研究院倒不是关键问题，研究院的目的也是要让技术为产品服务。关键问题是，如何解决人工智能的商务拓展问题，特别是在人工智能极其早期的情况下，还需要教育和培训市场。Amazon Echo的成功，千万不要忽视了Amazon在渠道上的优势以及市场投入方面的大手笔。

所以，笔者个人觉得，与其花费精力探讨AI技术如何如何（抄袭Echo也没啥不好），不如多摸摸市场如何，试试用户怎样，再来定下营销打法和渠道策略。只有先有一款好的产品粘得住市场，再琢磨所谓的变现、战略等等之类的东西。想当初各大门户网站成立之初，估计打死也不会想到最终还是以广告盈利的。

10、AI创业不要全栈，寻求单点突破

AI创业的全栈式玩法更多是一个理想，即便苹果至少也需要200家供货商。创业公司应该都是利用自身团队优势寻求单点突破，因为创业公司的资金、规模、人员、口碑、营销等等都是非常弱势的，其本身根本就没有抵抗风险的能力，更不要说试错的机会了。但凡一个战略决策错误，创业公司估计就倒下了，创业公司其实没有什么资格谈论全栈。

即便是巨头，全栈也是一个不恰当的选择，全栈是一个逐步积累的过程，操之过急就会掉进坑了。事实上，一个国家做到全栈都极其困难，甚至我们国家到现在很多地方还不能自给自足。当然全栈在国内又被理解成了生态，不过似乎国内号称做生态的公司活的也并不是太好。

社会分工本来就是人类的进步，不是说有点AI的苗头就回到历史起点了，远远到不了那个层次。举个简单的例子，比如声智科技从事的远场语音交互领域，任意一个单项技术早就已经全球竞争了。当国内科技公司还在模仿Echo，互相争吵该不该用麦克风阵列的时候，国外的科技巨头已经开始进一步抢夺全球语音交互市场的控制权。无论是行业标准的定制，还是战略专利的布局，亦或是音频数据集的开放，以及各种产业生态联盟的搭建，事实上国内的科技公司巨头已经落后许多了，这个时候快速做起业务才是核心，而不是从头到尾打造所谓的全栈。

小结

啰嗦了那么多，主要想表达两个观点：

一是期望业界理性看待人工智能，理想看待这个领域的创业公司，资本不要拔苗助长，媒体也不要捧天摔地，创业者也不要自我陶醉，所有企业的成长都要遵从客观的历史规律，AI还只是对未来的期望。

二是也期望AI领域的创业者们，从事这个领域更要有格局、有眼光、心胸开阔，AI行业不存在谁灭谁的问题，AI只是通过技术升级推动行业的进步，宗旨还是造福人类社会。因此，AI企业更应该合作共赢，一起教育和培养市场，共同推进AI技术生根发芽。