雷锋网消息,7月7日,中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的第二届CCF-GAIR全球人工智能与机器人峰会在深圳如期开幕。大会很快过去了一半,在今日机器人专场的下半场,声智科技创始人兼CEO,中科院声学所博士陈孝良先生为我们介绍了人机语音交互的技术趋势与商业机遇。陈先生在雷锋网亦有专栏文章,欢迎读者前往阅读。
以下是雷锋网整理的演讲主要内容:
从全球上看,智能音响引起了许多巨头关注,它很可能是人工智能的下一个入口。
从交互的方式上看,PC到互联网在到AI,人机交互的方式也发生变化,从鼠标转向触摸屏,现在AI将以语音作为主要输入方式,与其他方式相互融合。
从商业模式上看,市场是确定的,从蓝牙音响升级到智能音响,决策成本低,可以用原来的市场重构。
从创新角度上看,远场语音交互能带动全球智能链条的创新。大概分为四个层次的创新:底层包括器件、芯片、模组,上一层包括VOS、网络,然后是产品,后面跟着内容服务,都需要根据语音交互的变革来进行相应的改变。
从技术方面看,智能音响还面临着一些问题:
1. 远场的语音识别的问题:远场指的是复杂的实际环境。声源与麦克风的距离较远,会出现其他声音干扰的情况
2. 矢量麦克风的技术提高:矢量麦克风是下一步的麦克风,更遥远一点。中间会加一层智能麦克风。国内的矢量麦克风技术还比较落后
3. 芯片:在偏重人工智能的芯片上,国内技术竞争力还比较低
4. 算法:声学的技术比较封闭,如何保持国内的技术领先,也是个比较大的挑战
此外,智能音响还面临着商业化挑战,在产品、内容和服务,以及知识产权上,我国都面临着挑战。
陈先生还预测了智能音响发展趋势:
1. 智能麦克风
2. 解决芯片架构
3. 多传感融合,麦克风和视频、雷达三者融合
4. 算法和模型需要进一步研究
最后陈先生还对比了国内外产品定位的差异:
国内的产品大多会命名为音箱,而国外的产品则避免使用Speaker。
陈先生还提到了在智能音响上,一些巨头对产业生态的影响力还是不可忽视的。