雷锋网按:本文作者陈孝良,博士,声智科技创始人,曾任中科院声学所副研究员和信息化办公室主任,北京市公安局首届网络应急专家,主要从事声学信号处理和 GPU 深度学习算法研究工作。本文为雷锋网独家首发文章。
北京时间2017年6月6日凌晨1点,第28届WWDC苹果全球开发者大会,苹果终于压轴重磅发布了HomePod,一款苹果精心打造的智能音箱。但是,估计这让很多果粉失望了,这应该是苹果系列中极少称得上“很丑”的产品。鉴于笔者并不懂艺术,因此凌晨着急询问了很多美学人士,这才没让笔者怀疑自己的审美出现了问题。
HomePod的设计师估计是成长在80年代的中年人,因为看到HomePod的第一眼就想起了妈妈的毛线球,新世纪的年轻人哪见过这古董,当然,还有一种更难看的尼龙线球也是这个造型。
当然,HomePod虽然丑了点,但是性能一点不差,苹果对于用户体验的极致追求还在,而且,HomePod是迄今为止首款回归音箱本质的智能音箱。苹果甚至不惜代价同时部署了麦克风阵列和扬声器阵列,这就是苹果的态度:不仅追求远场语音交互的体验,也追求极致音质带来的享受。
HomePod内置了苹果Siri,这次苹果采用了业界流行的6麦环形阵列技术。这种麦克风阵列技术适合远场语音交互,这样可以满足用户远距离通过“Hey,Siri”与HomePod的命令交互。苹果HomePod采用麦克风阵列技术,也表明了苹果将Siri从近场语音交互升级到远场语音交互的技术思路。
前几年,语音交互应用最为普遍的就是以Siri为代表的智能手机,这个场景一般都是采用单麦克风系统。单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是,若声源距离麦克风距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。
而且,单麦克风接收的信号,是由多个声源和环境噪声叠加的,很难实现各个声源的分离。这样就无法实现声源定位和分离,这很重要,因为还有一类声音的叠加并非噪声,但是在语音识别中也要抑制,就是人声的干扰,语音识别显然不能同时识别两个以上的声音。
显然,当语音交互的场景过渡到以智能音箱、智能电视、机器人或者汽车为主要场景的时候,单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性,利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。
从目前国内外市场上的产品来看,Amazon Echo的方案是6+1麦的环型阵列结构,Amazon Echo Show是8麦椭圆型阵列结构,Google Home是2个麦克风结构,国内科大讯飞的叮咚音箱是7+1麦的环型阵列结构,当前声智科技的产品线最为齐全,拥有3/4/4+1/6麦的环型阵列结构以及单麦、4麦线型、6麦L型,8麦双L型、10麦分布式阵列等结构。
实际上,不同的阵型适应不同的场景,同时还要考虑性价比,显然阵列结构越复杂其成本也越高。而对于智能音箱来说,由于用户使用习惯需要360度的拾音和定向,所以环型阵列结构是最为合适的。至于选用3个,4个还是6个,则是根据定向精度和交互距离来决定,从某个角度可以理解为麦克风的数量越多定向越准,语音识别的距离也会越远,当然,这和阵型的具体结构也有关系。
注意,这里的2麦克风不是阵列,并不具有阵列的一些功能和性能,2麦最通常是用在类似手机和蓝牙耳机等超薄的设备上实现降噪功能,实际上,很多场合经过特殊设计的单个麦克风即可替代2麦结构。由于苹果HomePod必须差异于Amazon Echo和Google Home,选用6个麦克风的结构非常明智,性价比最为合适,这也是声智科技主推的麦克风阵型,事实上,根据声智科技当前的技术,选用4个麦克风的效果也不会太差,只是语音交互距离会损失一点。
智能音箱毕竟还是音箱的品类,这是成熟的品类,也不明白为何很多智能音箱的厂商非要定位自己是机器人。事实上定位于机器人对于消费市场来说反而是一个灾难,因为机器人市场还是一个需要巨大投入教育的市场。因此,HomePod选择了回归音箱的本质,非常注重音质和听觉体验。
HomePod拥有非常棒的音频技术,底部采用了7个波束形成的高频扬声器阵列,可以精准呈现声学效果以及声场控制。过分的是,在如此小的产品之中,苹果竟然用了一个4寸的低频扬声器,这里就不再强调低频扬声器越大越好了。
不仅如此,HomePod还采用了大量音效算法,包括自动低音均衡、动态建模等等。虽然7英寸的小身材,即使调大音量,音质也不会失真。HomePod采用的是苹果手机使用的A8处理芯片,同时兼具了实时声学建模、音频波束形成、多通道回声消除技术,这使HomePod是迄今为止速度最快、音效最棒的智能音箱。笔者相信,单单凭这个理由,就有很多果粉会掏腰包。
另外,苹果也提到了Spatial awareness技术,其实这不是什么新奇的技术,就是强调了空间感和沉浸感,也就是让音乐在不同的场景里以不同的音效播放出来。顾名思义,当HomePod放在房间里,可以根据现场的环境来调整音乐效果。
虽然不新鲜,但是这是一个很大的进步,因为虚拟空间音效极度依赖空间的声场环境。顺便多说几句,杜比折腾了那么多年的全景声,应用到家庭级产品中始终就没能解决这个问题。小米的超薄电视强调了空间音效,也就是增加了从天花板反射的声音,但是杜比显然无法依据用户的家庭环境来适应最佳音效。
当然,HomePod肯定支持多房间音乐系统,如果使用多个HomePod,其音效效果将更加棒,这更适合国外喜欢聚会的年轻朋友。当前声智科技也提供了针对多房间音乐系统的支持,同时还有一项“就近唤醒”的技术,也就是当多个语音智能设备同时存在的时候,优先响应用户指令的是距离用户最近的智能设备。
至于苹果的音乐生态、家庭控制就不再重复强调了。HomePod增加的声纹识别功能倒是一个小亮点,这样Siri会识别用户的声音是否与用户声纹相符,不仅提升了使用效率,而且能够为用户的隐私提供安全保障。
似乎不仅仅HomePod,苹果自从离开乔布斯时代以后,就再也没推出过令人惊艳的产品,甚至,闭着眼睛都能猜到苹果iPhone 8的造型,更不用说一直没有变化的Mac和iPad系列了,包括AirPods的设计也是被吐槽的对象。这自然是库克的功劳,这位供应链出身的CEO驱动苹果帝国一直前行,但是太过务实的作风也让库克失去了对技术和艺术结合的掌控力。
显然,HomePod是艺术妥协技术的结果,因为从布局来看,从下到上依次是高频扬声器阵列、麦克风阵列、4寸低频扬声器和主控板,这样罗列在一起,再考虑到声学结构设计,从技术角度来看确实也想不出更好的造型来。但是这总归是苹果啊,拥有全世界最牛的设计人员和技术人员,结果还是设计出来了一款没有摆脱技术思路的产品。
有时候不得不说,让技术或者供应链的大拿负责产品设计或者也是一场灾难。Anyway,这是一款完全符合技术人员审美和风格的产品,因为从技术层面来说,这款音箱确实也没毛病,而且还挑战了技术难度,比如麦克风阵列放置中部的技术实现难度就很大。
但是苹果终归是苹果,苹果对于产品的理解和打法还是超过了行业普通的认知。首先来看苹果的定位,高端这是必须的。Amazon Echo是先入为主的产品,售价179美元,这接近成本的价格很要命,几乎堵住了很多产品的出路。逼的Google不得不走低端,售价拉低到129美元,为此还弃用了麦克风阵列,牺牲了远场语音交互的体验。
不管怎样,反正苹果售价定到349美元了,这对于苹果应该还算降价了,但是也把高端智能音箱市场的出路给堵死了。其次,苹果既然定位高端,其产品就要给消费者带来高端的体验,因此苹果堆砌了麦克风阵列和扬声器阵列技术,再加上原本的音乐和控制生态,对于吸引一大批苹果粉丝来说,还是稳妥的策略。当然苹果最大的失误就是HomePod丑了一点,否则这会让更多厂商感觉悲观。
从当前国外市场来看,Amaon,Google,Apple从低端到高端针对智能音箱的布局,一致都是压缩了利润空间,这绝对不是一款以赚钱为目标的产品,而是一款战略级的产品。说白了,巨头们压根就没指望依赖智能音箱赚多少钱,而是不能失去了这个语音入口,即便不确定未来是不是入口,至少赌错了要比错过更好。何况,以现在的形势来看,声音和图像注定是人工智能时代的两大核心基础数据。
这就产生了一个难题,Amazon Echo和Google Home怎么应对?Amazon还好,毕竟市场占用率在那,而且产品线也比较齐全了,尴尬的反而是Google了,花费了那么大精力,反而只是做了其他两家巨头的陪衬。这还好,最尴尬的是国内做海外市场的一些厂商,比如联想,联想的智能音箱该怎么面对这个复杂的情况?在这样的压力下,会不会有更令人惊喜的产品出现,比如小米该如何行动?这也是我们这个年度最为期待的事情。
苹果HomePod预计至少等到12月份才在美国、英国、澳大利亚同步发售,而全球发货要等到明年稍晚些时候。这是个什么情况?一款音箱竟然就要等到半年以上。而且,根据现场的朋友反馈,发布会展示的音箱,应该只是一个壳子,因为除了演示亮下灯,其他什么功能都没有。所以,苹果确实也着急了一点,必须要推出智能音箱才行了。
不得不说,这也是技术上颇为尴尬的事情,苹果绝对是保证用户体验的,但是HomePod一下子加了两个阵列,哪个阵列都不是简单的事情。毕竟现在的产品已经不是纯功能型的产品了,这是一个完整的技术链条。比如麦克风阵列,就包括了噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益、模型匹配、语音识别等等功能,这都是需要认真打磨的复杂技术体系,即便是苹果,也需要足够的时间积累经验。产品考验的是每一处的细节, 所以,很多时候,请善待你们身边那些没日没夜加班的创业公司吧。
随着人工智能领域的不断发展,人们开始追求更加自由的语音交互方式,远场语音交互的优势逐渐凸显出来。事实上Echo出现之前,语音交互产品解决的一直都是近场问题,这是典型的由于技术限制而刻意回避场景的案例,因为近场语音交互要求人类适应机器。
但是人类之间的语音交互从来都要拉开一定的距离,所以现在需要机器适应人类。这可以说是计算机技术的一个巨大进步,也是人工智能的核心要素之一。
当然,这并非声学领域特有的问题,当摄像头和雷达安装到汽车,以及GPS安装到自行车的时候,场景变化所带来的技术挑战才会凸显出来,因为真实场景所需要的技术支持并非简单升级,而是颠覆性创新,这也是巨头公司纷纷进入这个领域的主要原因,谁也不想在技术升级换代过程中被淘汰。
事实上,当机器获取的融合数据足以覆盖到人类十分之一的时候,人类确实很多时候只需要说一说、看一看或者想一想机器就能明白,但是这个时候,我们也不知道到底会产生哪些新的商业模式,毕竟从我们角度来看,广告模式肯定不是人工智能时代的最佳商业模式。
从亚马逊Echo畅销,大家逐渐把目光瞄准了智能音箱。谷歌推出了Google Home,微软也联手哈曼卡顿、惠普等推出搭载Cortana的智能音箱。虽然,苹果通过智能耳机Airpod抢占语音市场入口,然而,随着亚马逊Alexa通过Echo在智能家居市场攻城略地,似乎开始渐渐吞噬苹果在智能家居领域的市场份额,也逐渐稳固其语音交互入口的地位,Alexa似乎成为新一代“安卓”或者“OS”。如此看来,苹果推出HomePod的确是势在必行。
即便在乔布斯时代,苹果的每款产品发布都会被吐槽多次,但是苹果的销量就是最佳的回应,至少,从苹果HomePod的性能和价格来看,HomePod的销量也不会太差,这从Airpods上可以类比一下。特别是苹果竟然模仿小米路线,还相当认真地对比了一下价格,最终才给出了一个比拼小米的价格。更为期待国内的各大巨头,如何应对苹果的战略打法呢?