资讯 特写
此为临时链接,仅用于文章预览,将在时失效

放弃通用型助理,搜狗的语音之树却扎根更深

作者:haoxiaoru
2016/08/05 10:00

放弃通用型助理,搜狗的语音之树却扎根更深

(2016年8月3日,搜狗CTO杨洪涛在“知音”引擎发布会上)

搜狗语音助手app的最后一次更新,停留在两年前。它诞生于 2012 年,是苹果 Siri 引发的语音助理产品浪潮中的一个。后来同类的产品都趋于沉寂。搜狗语音交互技术中心负责人王砚峰,把这类产品称为“通用型语音助理”。他说,人们使用通用型语音助理的时候,会想着这个软件应该是无所不能、无所不会的,但现在的技术做不到这一点,而且五年之内都不可能做到。

今年上任的搜狗CTO杨洪涛总结道,通用型语音助理更加注重“广度”的开发,开发者想满足用户的各种需求,但技术上又没法达到用户预期,所以这种语音助理的位置很尴尬。

于是,搜狗很早就放弃了通用型语音助手的开发,转换思路,将精力转移到垂直型的场景中。他们试图通过对垂直场景的深度优化,让语音交互技术为更多人所用。

这种做法,与仍然在走通用型语音助理的同业者截然不同。搜狗CTO杨洪涛,形容这种不同本质上非技术问题,而是产品观的问题。他认为,在基础语音技术水准上,几家大公司的能力会趋同,不会有本质上的差异,但体现在产品上就会有领先有落后。这取决于两点:一是产品观;二是数据与技术的配合情况。

按照雷锋网的理解,这两点其实是杨洪涛悄悄开了两枪:一枪打向搜索引擎同业者,瞄准其坚持通用型语音助理的产品观;一枪打向传统语音技术供应商,瞄准其为多个合作伙伴提供技术的方式,缺乏数据上的深度优化能力。

杨洪涛说,讯飞也在跟高德地图合作,但这种合作跟搜狗语音团队与搜狗地图的合作是不一样的。“我们在打磨导航里面的语音交互能力的时候,是跟地图的产品经理坐在一起讨论这件事情怎么做,友商基本不可能。”

垂直场景之车内导航

放弃通用型助理,搜狗的语音之树却扎根更深

车内导航是搜狗看中的一个垂直场景。8月3日的搜狗“知音”引擎发布会上,他们展示了针对车内导航场景做的优化,最明显的变化是支持多轮对话。比如,用户想去化工大学的时候,导航系统会问用户,去哪个校区(北校区还是东校区),但用户的回答可能是“昌平的那个校区”,这时候搜狗的导航系统也可以理解用户想去哪个校区。

搜狗语音交互技术中心负责人王砚峰说,用户习惯于通过周围熟悉的建筑物跟地图进行进一步的交互,这种交互是非常深度的。你需要有地图的知识,同时语音系统要知道用户是通过这种地标的方式进行查询。如果你没有这样的能力,你在识别阶段或者语义理解阶段是解决不了这样的需求的。

垂直场景之语音输入

放弃通用型助理,搜狗的语音之树却扎根更深语音输入是另一个搜狗看中的垂直场景。对于以输入法为核心产品的搜狗来说,这一点几乎是显而易见的。活动中,杨洪涛现场展示了搜狗实时转写字幕的功能,杨洪涛的讲话内容实时出现在屏幕上,这是语音输入相关技术第二次亮相。之前搜狗CEO王小川在上海进行过演示。

搜狗针对语音输入功能做的优化,主要是大幅改进“语音修改”能力。王砚峰介绍,他们借鉴了人与人之间沟通时怎么向对方解释文字含义的方式。并举例,介绍自己的时候,他会说“我叫王砚峰,砚台的砚,山峰的峰”。如果机器可以听懂人与人之间语言纠错的话,对于用户体验的提升就会非常大,其实就是让用户能够用一种自然语音的方式跟机器交流。

搜狗目前在iOS版输入法的语音输入功能上,已经加入了这项被称为“语音修改”的功能(官方称 Android 版月内也会上线)。语音输入完一段话之后,可以按照自己的想法进行修改。这里有段视频大家可以了解下。

搜狗看重的第三个垂直场景是家庭娱乐。简单说,就是在电视和电视盒子上输入文字是非常麻烦的,语音这时候可以起到更重要的作用。搜狗现场演示了,通过多轮对话和对话中出现的“知识”的语义理解,更好地理解用户的需求。这方面,其实搜狗没有展开讲,因为还没有具体的产品落地。搜狗在会后透露了他们的打算,希望找到一家业内技术最强的电视厂商,一起做针对内容数据的深度优化,打磨产品,满足家庭娱乐场景下的真实需求。

从通用型到垂直场景,业务重点从追求广度到追求深度。搜狗虽然战略上放弃了通用型语音助理的开发,但是通过垂直场景下数据和技术的配合,语音交互之树却扎根更深。 

长按图片保存图片,分享给好友或朋友圈

放弃通用型助理,搜狗的语音之树却扎根更深

扫码查看文章

正在生成分享图...

取消
相关文章