人工智能的热潮驱动了整个行业的发展,智能语音作为最天然的交互手段,自然备受关注。在语音交互引起传统交互变革的今天,智能车载领域成为了变革的先锋,尤其是后装市场,智能语音似乎已经成为了车载场景交互的标配。
国内专注智能语音的企业竞争越来越胶着。阿里,语音客服俨然已成为刚需;百度,强大的搜索资源库成为了百度语音的后备力量;科大讯飞,依托政府项目,在教育、医疗、智慧城市等领域也占据着市场优势;乐视推出乐乐语音,改变着乐视超级电视的交互方式;爱奇艺、360、等也都在纷纷涉足语音技术。专业的语音公司更是凭借着特色的解决方案,风头正盛。在这其中,交互方式的简单便捷,成为几乎所有语音交互方案追求的一大效果。
讲到语音交互的简单与便捷,思必驰于2016年10月20日升级版的AIO3.1新增的one-shot功能吸引了行业极大的关注。AIOS For Car是思必驰于2015年10月针对智能车载后装市场推出的一款对话操作系统,主要应用在车机、智能后视镜、HUD,以及互联网汽车等产品上。2016年6月,思必驰将其升级至AIOS3.0版本,新增7大功能, 10月20日,思必驰再次发力,升级至AIOS3.1版本,积淀许久的one-shot功能也终于揭开神秘面纱。
思必驰将one-shot功能描述为“一把说”,这一描述也十分的生动形象,贴近实际。
图1 思必驰one-short一把说
据悉,one-shot一把说,采用“唤醒词+语音语义识别”一体化方式,实现唤醒词与语音操控之间零间隔、零延迟、无缝对接,摒弃传统的一问一答的形式,极大减少用户语音操控的步骤,实现信息反馈,化繁为简,实现简便操作,但这样的简便在设计之初却并不简单。
one-shot的一大特点是识别唤醒与语义理解一体化,保证语音交互的统一性与连贯性,完成操控。举个简单的例子来讲,过去智能语音的交互方式为一问一答,用户发出唤醒词指令,需要设备反馈待机信息,然后才能开始交互,例如:
用户:你好小驰(唤醒词指令)
设备:有什么可以帮您?(设备反馈,表示处于信息接收状态)
用户:我要去机场
设备:开始为您导航去机场
One-shot功能却可以一语即中,实现“唤醒词+语音语义识别”一体化,比如实现这样的交互:
用户:你好小驰,我要去机场
设备:开始为您导航去机场
相比传统,这样的体验似乎更具效率。或许未来,在人机交互中,机器通过采集用户的行为习惯数据,追踪用户意图,实现如下的对话,也并非不可能:
甲:我一直有个问题想问你
乙:爱过….
系统响应速度及精准度始终是用户关心的一大问题。AIOS3.1中的one-shot功能采用本地+云端混合引擎模式。语音唤醒和常用的语音指令识别存储在本地,系统接收反应灵敏,语音识别能够准确及时的响应。与此同时,连续语音识别和语义理解进行云端处理,基于场景,收集用户习惯数据,通过深度学习,分析并追踪用户意图,保证语义理解精准性。本地加云端的混合引擎处理,既保证了响应速度也确保了交互的精准,即使在没有网络的情况下,依然可以使用基本语音交互功能。
GUI图形交互界面必然会继续前进变革,VUI语音交互界面是一大发展趋势。思必驰one-shot功能的发布,展示了其在VUI产品交互设计的深度思考。相信,通过不断的提升语音交互体验,VUI必然会在未来IOT行业的人机交互中引起越来越多的变革。
很多车载后装产品用户反映一个问题,就是使用车载语音时,说“我要去天安门”,系统可以响应,但是说“去天安门”时,系统无反应,这是为什么呢?实际上,这是因为一些语音方案商将“我要去”三个字固化为唤醒词,而“去”、“我想去”这类词与“我要去”不完全匹配,所以系统自然无法识别。这种交互方式,表面上被宣传为“免唤醒”,实际上恰恰相反,系统通过采用大量唤醒词来实现,这样做导致误唤醒率极高、增加系统资源占用、可扩展性差,同时强迫用户记忆,为用户的安全驾驶带来隐患。
就此问题,思必驰产品总监雷雄国表示“思必驰用One-shot功能来解决这一问题,用户想怎么说系统都可以理解,基于对应用场景的深度学习,系统能够通过后台用户数据采集,分析用户行为习惯,准确追踪用户意图,克服刻板的关键词识别,通过大词汇数据,实现场景的流畅交互”。
实然,语音技术企业的核心竞争力在语音技术研发实力、产品化落地及市场应用着陆,成为企业生存之道。一些企业坚持自主研发,一些企业善于使用国际开源工具,比如,Google开源深度学习系统Tensor Flow。该系统支持支持CNN、RNN和LSTM算法等流行的深度神经网络模型,大大降低深度学习的应用难度,提升开发速度。但通用的开源工具有其效率和权限上的局限性,既无法满足特定的前沿算法需求,也常常无法满足用户基于场景的个性化需求,不同专业领域的算法、数据、架构等都要依托实际应用进行搭建及优化。
目前国内智能语音行业中,深耕技术研发的企业并不多,比如在深度学习方面,百度研究院推出Deep Speech系统,科大讯飞推出FSMNN算法模型,思必驰与上海交大联合实验室则独立拥有VDCNN算法模型和PSD解码架构。拥有独立自主研发实力,才能结合产品特性、应用场景,深度定制交互方案。
无论说是新奇的one-shot功能,还是说传统的语音交互,在人工智能时代,只有技术落地转化为良好的产品体验才能更好的绘出未来智能生活的景象,我们期待着更多新技术的发布,也期待着新技术给我们带来的惊喜。