Apple HomePod技术解读，为何苹果变丑了？

2017/06/06 19:15

雷锋网按：本文作者陈孝良，博士，声智科技创始人，曾任中科院声学所副研究员和信息化办公室主任，北京市公安局首届网络应急专家，主要从事声学信号处理和 GPU 深度学习算法研究工作。本文为雷锋网独家首发文章。

北京时间2017年6月6日凌晨1点，第28届WWDC苹果全球开发者大会，苹果终于压轴重磅发布了HomePod，一款苹果精心打造的智能音箱。但是，估计这让很多果粉失望了，这应该是苹果系列中极少称得上“很丑”的产品。鉴于笔者并不懂艺术，因此凌晨着急询问了很多美学人士，这才没让笔者怀疑自己的审美出现了问题。

HomePod的设计师估计是成长在80年代的中年人，因为看到HomePod的第一眼就想起了妈妈的毛线球，新世纪的年轻人哪见过这古董，当然，还有一种更难看的尼龙线球也是这个造型。

Apple HomePod技术解读，为何苹果变丑了？

当然，HomePod虽然丑了点，但是性能一点不差，苹果对于用户体验的极致追求还在，而且，HomePod是迄今为止首款回归音箱本质的智能音箱。苹果甚至不惜代价同时部署了麦克风阵列和扬声器阵列，这就是苹果的态度：不仅追求远场语音交互的体验，也追求极致音质带来的享受。

靴子落地，为何要用6麦的环型阵列！

HomePod内置了苹果Siri，这次苹果采用了业界流行的6麦环形阵列技术。这种麦克风阵列技术适合远场语音交互，这样可以满足用户远距离通过“Hey，Siri”与HomePod的命令交互。苹果HomePod采用麦克风阵列技术，也表明了苹果将Siri从近场语音交互升级到远场语音交互的技术思路。

前几年，语音交互应用最为普遍的就是以Siri为代表的智能手机，这个场景一般都是采用单麦克风系统。单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是，若声源距离麦克风距离较远，并且真实环境存在大量的噪声、多径反射和混响，导致拾取信号的质量下降，这会严重影响语音识别率。

而且，单麦克风接收的信号，是由多个声源和环境噪声叠加的，很难实现各个声源的分离。这样就无法实现声源定位和分离，这很重要，因为还有一类声音的叠加并非噪声，但是在语音识别中也要抑制，就是人声的干扰，语音识别显然不能同时识别两个以上的声音。

显然，当语音交互的场景过渡到以智能音箱、智能电视、机器人或者汽车为主要场景的时候，单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性，利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构（常用线形、环形）摆放的麦克风组成，对采集的不同空间方向的声音信号进行空时处理，实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能，进而提高语音信号处理质量，以提高真实环境下的语音识别率。

从目前国内外市场上的产品来看，Amazon Echo的方案是6+1麦的环型阵列结构，Amazon Echo Show是8麦椭圆型阵列结构，Google Home是2个麦克风结构，国内科大讯飞的叮咚音箱是7+1麦的环型阵列结构，当前声智科技的产品线最为齐全，拥有3/4/4+1/6麦的环型阵列结构以及单麦、4麦线型、6麦L型，8麦双L型、10麦分布式阵列等结构。

实际上，不同的阵型适应不同的场景，同时还要考虑性价比，显然阵列结构越复杂其成本也越高。而对于智能音箱来说，由于用户使用习惯需要360度的拾音和定向，所以环型阵列结构是最为合适的。至于选用3个，4个还是6个，则是根据定向精度和交互距离来决定，从某个角度可以理解为麦克风的数量越多定向越准，语音识别的距离也会越远，当然，这和阵型的具体结构也有关系。

注意，这里的2麦克风不是阵列，并不具有阵列的一些功能和性能，2麦最通常是用在类似手机和蓝牙耳机等超薄的设备上实现降噪功能，实际上，很多场合经过特殊设计的单个麦克风即可替代2麦结构。由于苹果HomePod必须差异于Amazon Echo和Google Home，选用6个麦克风的结构非常明智，性价比最为合适，这也是声智科技主推的麦克风阵型，事实上，根据声智科技当前的技术，选用4个麦克风的效果也不会太差，只是语音交互距离会损失一点。

Apple HomePod技术解读，为何苹果变丑了？

智能音箱的根本属性还要听音质！

智能音箱毕竟还是音箱的品类，这是成熟的品类，也不明白为何很多智能音箱的厂商非要定位自己是机器人。事实上定位于机器人对于消费市场来说反而是一个灾难，因为机器人市场还是一个需要巨大投入教育的市场。因此，HomePod选择了回归音箱的本质，非常注重音质和听觉体验。

HomePod拥有非常棒的音频技术，底部采用了7个波束形成的高频扬声器阵列，可以精准呈现声学效果以及声场控制。过分的是，在如此小的产品之中，苹果竟然用了一个4寸的低频扬声器，这里就不再强调低频扬声器越大越好了。

不仅如此，HomePod还采用了大量音效算法，包括自动低音均衡、动态建模等等。虽然7英寸的小身材，即使调大音量，音质也不会失真。HomePod采用的是苹果手机使用的A8处理芯片，同时兼具了实时声学建模、音频波束形成、多通道回声消除技术，这使HomePod是迄今为止速度最快、音效最棒的智能音箱。笔者相信，单单凭这个理由，就有很多果粉会掏腰包。

另外，苹果也提到了Spatial awareness技术，其实这不是什么新奇的技术，就是强调了空间感和沉浸感，也就是让音乐在不同的场景里以不同的音效播放出来。顾名思义，当HomePod放在房间里，可以根据现场的环境来调整音乐效果。

虽然不新鲜，但是这是一个很大的进步，因为虚拟空间音效极度依赖空间的声场环境。顺便多说几句，杜比折腾了那么多年的全景声，应用到家庭级产品中始终就没能解决这个问题。小米的超薄电视强调了空间音效，也就是增加了从天花板反射的声音，但是杜比显然无法依据用户的家庭环境来适应最佳音效。

Apple HomePod技术解读，为何苹果变丑了？

当然，HomePod肯定支持多房间音乐系统，如果使用多个HomePod，其音效效果将更加棒，这更适合国外喜欢聚会的年轻朋友。当前声智科技也提供了针对多房间音乐系统的支持，同时还有一项“就近唤醒”的技术，也就是当多个语音智能设备同时存在的时候，优先响应用户指令的是距离用户最近的智能设备。

至于苹果的音乐生态、家庭控制就不再重复强调了。HomePod增加的声纹识别功能倒是一个小亮点，这样Siri会识别用户的声音是否与用户声纹相符，不仅提升了使用效率，而且能够为用户的隐私提供安全保障。

那么，为什么苹果越变越丑了呢？

似乎不仅仅HomePod，苹果自从离开乔布斯时代以后，就再也没推出过令人惊艳的产品，甚至，闭着眼睛都能猜到苹果iPhone 8的造型，更不用说一直没有变化的Mac和iPad系列了，包括AirPods的设计也是被吐槽的对象。这自然是库克的功劳，这位供应链出身的CEO驱动苹果帝国一直前行，但是太过务实的作风也让库克失去了对技术和艺术结合的掌控力。

Apple HomePod技术解读，为何苹果变丑了？

显然，HomePod是艺术妥协技术的结果，因为从布局来看，从下到上依次是高频扬声器阵列、麦克风阵列、4寸低频扬声器和主控板，这样罗列在一起，再考虑到声学结构设计，从技术角度来看确实也想不出更好的造型来。但是这总归是苹果啊，拥有全世界最牛的设计人员和技术人员，结果还是设计出来了一款没有摆脱技术思路的产品。

有时候不得不说，让技术或者供应链的大拿负责产品设计或者也是一场灾难。Anyway，这是一款完全符合技术人员审美和风格的产品，因为从技术层面来说，这款音箱确实也没毛病，而且还挑战了技术难度，比如麦克风阵列放置中部的技术实现难度就很大。

产品的尴尬，如何应对苹果的打法！

但是苹果终归是苹果，苹果对于产品的理解和打法还是超过了行业普通的认知。首先来看苹果的定位，高端这是必须的。Amazon Echo是先入为主的产品，售价179美元，这接近成本的价格很要命，几乎堵住了很多产品的出路。逼的Google不得不走低端，售价拉低到129美元，为此还弃用了麦克风阵列，牺牲了远场语音交互的体验。

不管怎样，反正苹果售价定到349美元了，这对于苹果应该还算降价了，但是也把高端智能音箱市场的出路给堵死了。其次，苹果既然定位高端，其产品就要给消费者带来高端的体验，因此苹果堆砌了麦克风阵列和扬声器阵列技术，再加上原本的音乐和控制生态，对于吸引一大批苹果粉丝来说，还是稳妥的策略。当然苹果最大的失误就是HomePod丑了一点，否则这会让更多厂商感觉悲观。

从当前国外市场来看，Amaon，Google，Apple从低端到高端针对智能音箱的布局，一致都是压缩了利润空间，这绝对不是一款以赚钱为目标的产品，而是一款战略级的产品。说白了，巨头们压根就没指望依赖智能音箱赚多少钱，而是不能失去了这个语音入口，即便不确定未来是不是入口，至少赌错了要比错过更好。何况，以现在的形势来看，声音和图像注定是人工智能时代的两大核心基础数据。

Apple HomePod技术解读，为何苹果变丑了？

这就产生了一个难题，Amazon Echo和Google Home怎么应对？Amazon还好，毕竟市场占用率在那，而且产品线也比较齐全了，尴尬的反而是Google了，花费了那么大精力，反而只是做了其他两家巨头的陪衬。这还好，最尴尬的是国内做海外市场的一些厂商，比如联想，联想的智能音箱该怎么面对这个复杂的情况？在这样的压力下，会不会有更令人惊喜的产品出现，比如小米该如何行动？这也是我们这个年度最为期待的事情。

为什么HomePod需要等到年底？

苹果HomePod预计至少等到12月份才在美国、英国、澳大利亚同步发售，而全球发货要等到明年稍晚些时候。这是个什么情况？一款音箱竟然就要等到半年以上。而且，根据现场的朋友反馈，发布会展示的音箱，应该只是一个壳子，因为除了演示亮下灯，其他什么功能都没有。所以，苹果确实也着急了一点，必须要推出智能音箱才行了。

不得不说，这也是技术上颇为尴尬的事情，苹果绝对是保证用户体验的，但是HomePod一下子加了两个阵列，哪个阵列都不是简单的事情。毕竟现在的产品已经不是纯功能型的产品了，这是一个完整的技术链条。比如麦克风阵列，就包括了噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益、模型匹配、语音识别等等功能，这都是需要认真打磨的复杂技术体系，即便是苹果，也需要足够的时间积累经验。产品考验的是每一处的细节，所以，很多时候，请善待你们身边那些没日没夜加班的创业公司吧。

苹果为何如此重视一款音箱？

随着人工智能领域的不断发展，人们开始追求更加自由的语音交互方式，远场语音交互的优势逐渐凸显出来。事实上Echo出现之前，语音交互产品解决的一直都是近场问题，这是典型的由于技术限制而刻意回避场景的案例，因为近场语音交互要求人类适应机器。

但是人类之间的语音交互从来都要拉开一定的距离，所以现在需要机器适应人类。这可以说是计算机技术的一个巨大进步，也是人工智能的核心要素之一。

当然，这并非声学领域特有的问题，当摄像头和雷达安装到汽车，以及GPS安装到自行车的时候，场景变化所带来的技术挑战才会凸显出来，因为真实场景所需要的技术支持并非简单升级，而是颠覆性创新，这也是巨头公司纷纷进入这个领域的主要原因，谁也不想在技术升级换代过程中被淘汰。

Apple HomePod技术解读，为何苹果变丑了？

事实上，当机器获取的融合数据足以覆盖到人类十分之一的时候，人类确实很多时候只需要说一说、看一看或者想一想机器就能明白，但是这个时候，我们也不知道到底会产生哪些新的商业模式，毕竟从我们角度来看，广告模式肯定不是人工智能时代的最佳商业模式。

从亚马逊Echo畅销，大家逐渐把目光瞄准了智能音箱。谷歌推出了Google Home，微软也联手哈曼卡顿、惠普等推出搭载Cortana的智能音箱。虽然，苹果通过智能耳机Airpod抢占语音市场入口，然而，随着亚马逊Alexa通过Echo在智能家居市场攻城略地，似乎开始渐渐吞噬苹果在智能家居领域的市场份额，也逐渐稳固其语音交互入口的地位，Alexa似乎成为新一代“安卓”或者“OS”。如此看来，苹果推出HomePod的确是势在必行。

小结

即便在乔布斯时代，苹果的每款产品发布都会被吐槽多次，但是苹果的销量就是最佳的回应，至少，从苹果HomePod的性能和价格来看，HomePod的销量也不会太差，这从Airpods上可以类比一下。特别是苹果竟然模仿小米路线，还相当认真地对比了一下价格，最终才给出了一个比拼小米的价格。更为期待国内的各大巨头，如何应对苹果的战略打法呢？