资讯 智能硬件
此为临时链接,仅用于文章预览,将在时失效

陈孝良:为什么国内做不好智能音响? | CCF-GAIR 2017

作者:六爷
2017/07/09 13:01

雷锋网按:2017 年 7 月 8 日,由 CCF 中国计算机学会主办,雷锋网与香港中文大学(深圳)承办的全球人工智能与机器人峰会 CCF-GAIR 大会进入第二天。在智能助手专场,中国科学院声学研究所副研究员、声智科技创始人陈孝良带来了以《人机语音交互的技术趋势与商业机遇》为题的主题演讲。

陈孝良:为什么国内做不好智能音响? | CCF-GAIR 2017

雷锋网注:声智科技创始人陈孝良

语音加速人机交互方式的变革,可能会重新定义很多消费电子。极端一点,如果将来所有消费电子都支持语音交互,那这个市场很大,基本上会在全球范围内重构整个产业链条。

首先,麦克风在性能、低功耗方面要做很大改进。事实上,整个全球市场,国内的麦克风产业占比很小,即便国内有些麦克风利用国外的技术来进行生产,但核心技术还是不在国内。而且我们现在做的麦克风是标量麦克风,只能取一个物理量,如果要解决很复杂的声学问题,就需要矢量麦克风。当然,矢量麦克风还有点遥远。

第二个挑战是芯片。我们现在所有的消费电子,特别是偏重人工智能的,前端大量用了 ARM 架构,GPU 比较少。GPU 用在服务端离线数据的训练,这是我们很大的问题。比较灵活的 GPU,国外三家巨头和国内基本没有太大关联。

第三个挑战是算法。声学是每个国家比较封闭的领域,因为声学主要是为军工服务,所以各个国家相互保密,只能各自发展。比如大量使用的机器学习,国内在做改进性技术,我们如何在原创方面比国外领先,这是很大的技术挑战。

陈孝良:为什么国内做不好智能音响? | CCF-GAIR 2017

第四个挑战是商业化挑战,它又分为三个层面。

陈孝良:为什么国内做不好智能音响? | CCF-GAIR 2017

刚才说了很多挑战,下面和大家交流一下技术的发展趋势。

  1. 麦克风现在是标量麦克风,下一步做智能麦克风,最后要做到矢量麦克风。这么大的会场,如果大家小声交流,这个声音对机器来说就很难处理。另外芯片到底是什么架构?低功耗,对接云端,都是需要我们考虑的问题。

  2. 下一代 AI 技术是融合的。麦克风和视频、雷达的融合,声光电三个学术合在一起应该怎么做,这也是下一步需要整个研究和开发的。

  3. 算法与模型,我们做得更多。比如我们的声源定位,目前只能跟踪一个目标,能不能同时跟踪多个目标,这是非常重要的,包括离线唤醒、离线语音识别。另外,机器学习是不是只用大数据,还是可以用别的方法做一些小样数据的处理,进行冷启动,这是我们下一步要研究的方法。

  4. 音响不存在死不死的问题,它是除了笔记本和手机以外,消费电子里面拥有量最多的。但我们做这个事情需要数据,特别是远场数据,不像近场数据可以直接录,这是非常严重的问题。冷启动的时候必须要选一个品类获得启动数据。

陈孝良:为什么国内做不好智能音响? | CCF-GAIR 2017

在产品定位方面,国内外也有很大不同。

国外亚马逊 Echo、谷歌 Home、苹果 Homepod、微软 Invoke,国内就是叮咚智能音响、联想智能音响、小雅智能音响、天猫精灵。

国外的产品很忌讳叫 Speaker。当时苹果推Homepod,大家都就猜是不是会带“Speaker”,结果选了Homepod,它天然加了两个因素,一个是Home,一个是pod,这和国内的定位有很大的差异。

现在智能音响的产品玩家很多,不光是巨头,包括国内的、深圳很多厂商都做,这里面比较严重的问题是亚马逊对生态链的重视,可能远不如我们想的那么重要。因为亚马逊比较喜欢玩自由生态。前段时间亚马逊和苹果联合降价就可以看出,它可以把产品突然降 100 美元,如果考虑生态链,这是非常严重的,可能导致很多厂商的产品卖不出去。

远场语音交互的开始是智能音响,但是将来绝对不仅仅是智能音响,其他人也不会把技术限定在智能音响,还包括很多其他的产品。

来自雷锋网报道。

长按图片保存图片,分享给好友或朋友圈

陈孝良:为什么国内做不好智能音响? | CCF-GAIR 2017

扫码查看文章

正在生成分享图...

取消
相关文章