11 月 21 日,在深圳会展中心举办的第十八届中国国际高新技术成果交易会(高交会)进入了最后一天的议程,在四号馆,计算机视觉公司旷视科技和智能语音识别公司思必驰联合主办了一场“读脸对话”主题沙龙,在讨论中,思必驰产品总监张岩向公众做了题为《物联网时代下的语音交互》的分享。
随着信息科技和移动互联网的不断发展,人类和计算机的交互方式也在不断发生着变化。从最初的像 Dos 系统那样的命令行交互,到苹果和微软系统那样的窗口化显示,以及现在的手机系统 UI 设计,都是不同阶段人类与计算机的进行信息交互的不同方式。在张岩看来,未来,随着物联网和智能化时代的到来,人类和计算机之间将产生一种全新的交互方式:那就是自然语音的交互,可以称为“Voice UI”。
张岩将物联网产品分成两类:一类是只需要联网的具备数据交换功能的简单产品,另一类是需要跟人交互的具有一定智能的复杂产品。他认为,就像手机占领现代人的生活那样,这两类物联网产品也将占领未来人类的生活。
毋庸置疑,亚马逊的 Echo 智能音箱是语音识别落地硬件设备最好的案例之一。凭借精准的自然语音交互,背后丰富的内容资源支持,亚马逊 Echo 不但蝉联了欧美市场同类产品的销量冠军,更是成为了目前业界智能音箱类产品的设计标杆。这里面除了反映出亚马逊公司自身强劲的产品研发和整合能力之外,实际上也代表着业界和市场对于语音交互方式的认可。
张岩表示,截止目前,国内之所以还没有出现一款真正意义上的国产版的 Echo,主要原因是受到了四个方面的约束:
基于自然语言的语音识别和语义分析技术约束;
背后强大的资源整合能力的限制;
缺少平台化的产品的 API 开放;
欠缺合理的价格和市场定位。
这几点正是语音识别厂商需要为硬件厂商的难题。
据张岩介绍,思必驰目前主要有两大产品线:一个是基于自然对话的语音识别和语义分析的 AIOS (Artificial Intelligence Operating System)人机对话操作系统,另一个是基于音频芯片和麦克风阵列的 AICHIP (Artificial Intelligence Chip)智能语音芯片模组。
张岩表示,AIOS 的设计初衷是为了弥补传统的主流操作系统(安卓、QNX 和 Linux等)在自然语言交互方面的缺失,实现机制就是在操作系统本身的基础上实现语音驱动下的一些列系统功能的对接,比如检测 到用户的指令是让电脑打开摄像头,那么 AIOS 就需要调用操作系统本身的接口实现相关操作。目前,AIOS 主要是以 License 授权的方式与硬件厂商形成合作,主要的厂商有高德导航和阿里 YunOS 等。
而 AICHIP 作为一个硬件方案,是思必驰和 Realtek 、 Marvell 等在内的多家半导体厂商共同合作的产品。将思必驰的语音技术和半导体厂商的音频处理、无线通讯等组件结合,形成了一套具有高度适配性和设计自由度的半导体语音模组,例如思必驰出品的环形 6+1 麦克风场景阵列和 4 麦克风线性阵列等,这在硬件上大大缩短了厂商的研发周期,目前有多家国内的机器人厂商都采用了思必驰的解决方案。
张岩表示,物联网的范畴很大,几乎可以说包罗万象,但是作为一家企业,就像一个人一样,其专注的精力是有限的。因此在当前情况下,思必驰主要提供车载、家居和机器人等三个垂直领域的软、硬件解决方案,其中车载领域更关注安全性,家居领域更关注怎么做能让用户的生活更便捷,而机器人领域则主要强调交流和沟通。
不过,目前有很多语音识别方案用户体验并不理想。例如目前大部分的语音交互模式,都需要先说一声“你好,XX系统”来激活语音识别程序,然后才能发出指令,进入语音交互状态。但其实更合理的模式应该是,用户说“你好,XX系统,今天的天气如何”不需要停顿,然后系统直接就能给出当日的天气状况,这才是连贯合理的交互。在张岩看来,语音识别公司在突破技术瓶颈的同时,更需要注重体验上的进步。
国内做语音识别技术的公司并不少,科大讯飞就是其中之一,有数据显示其已占有中文语音技术市场70%以上市场份额,那思必驰如何立足市场呢?
张岩坦言:“我们承认讯飞还是这个行业的No. 1,可调用的资源比我们多。不过也应该注意到:我们两家公司的侧重点是不同的,而且一个平台想解决这个行业的全部问题,这一点很难。我们不会跟科大讯飞比我们的短板,我们还是深耕垂直场景的语音交互。”
张岩向雷锋网透露,除了车载、家居和机器人领域之外,思必驰未来计划构建一个基于语音交互的定制平台,这个平台将可以对接这三个领域之外的其他各种物联网的智能硬件厂商,通过集成语音识别和语义分析技术,用户将可以在这个平台上自由定制各种语音方面的功能。
最后,张岩用麦克罗汉(Marshall McLuhan)的媒介论来解读物联网。他说:“就好像印刷品是人眼的延伸,广播是人耳的延伸一样,物联网同样也是一种延伸。未来,你随便问机器一句话,就像跟朋友交谈那样,机器通过联网立刻就能向你反馈需要的结果,这其实就是一种大脑的延伸。”