搜狗推出了一款真正落地的语音技术产品。
8月8日,搜狗针对文字工作者,推出语音实时转文字的速记工具“搜狗听写”。适用于写文章、采访录音、会议记录、笔记整理 、日常记事等场景,帮助用户实现语音记录和信息输入。针对不同场景和需求,搜狗听写可以支持“听写”和“转写”两种模式。在“听写”模式下,录音的同时即可实时给出识别结果;而“转写”模式下则可以离线录音,录音完成后一次性获取文字结果。
为了提高文字整理效率,搜狗听写还加入了边听边改、无线标重点(蓝牙打点)、多端同步、信息分享等人性化功能,与搜狗输入法个人词库打通。此外,搜狗公司语音交互技术中心总经理王砚峰宣称,搜狗听写还提供耳语识别技术,在说话音量低至30分贝时,依然可以准确识别。
早在2012年,搜狗即开始研发智能语音技术,并同步开启相关产品落地的布局。去年8月3日,搜狗举行知音引擎的发布会,取得机器翻译的突破。跟进当时世界上最领先的机器翻译的深度学习的框架,基于attion的端到端的框架,再加上以前在语音识别上的累积,用3个月的时间搭建起机器翻译引擎,并且应用到了去年的乌镇大会上。
去年11月份,搜狗推出了机器同传,率先商用化。今年1月份,推出行业首个跨引擎搜索引擎,也是基于机器翻译核心引擎推出。5月份,搜狗语音核心技术在应用方面取得突破等。
实际上,目前市场上已有一些同类的产品,例如早期推出的讯飞听见等,相比之下,搜狗是否存在优势呢?搜狗语音交互中心负责人王砚峰对雷锋网表示:
第一,讯飞对应的产品,如讯飞听见、讯飞录音宝等,是不能支持长时间录音、并且免费转写的。而搜狗是首次做了长时录音设置,并且支持免费转写。
第二,搜狗的产品是面向垂直场景,包括记者采访的场景、作家写作的场景等等。这些功能虽小,但它体现在具体场景下,怎么绞尽脑汁的想尽办法,帮朋友解决问题。
第三,功能上,讯飞手机端没有”听见“。且搜狗听写有语音实时转文字、边听边改、标重点、快速查找、多端同步、不限时长录音等功能。
除此之外,依托搜狗产品日均超过2.6亿次的语音请求,提供海量的真实语料数据,可以使得机器不断学习并提升语音识别准确率。
但对于搜狗转写免费会持续多长时间这个问题,王砚峰表示,目前肯定是免费的,至于之后会不会收费,并不完全确定。至少按照现有的产品形态,肯定是在相当长的时间内不考虑使用这个产品来赚钱。作为一家互联网公司,通过技术来收取技术服务费不是搜狗的商业逻辑。至少到现在为止,搜狗还不想通过产品收费的方式来进行商业的变现。
为什么选择这个时间点来发布产品?
王砚峰对雷锋网表示,一方面,是与去年发布的知音引擎更好地呼应,另一方面,搜狗下半年将会集中发布一批人工智能落地产品。王砚峰坦言,客观来讲,搜狗作为一家人工智能业界公司,在AI落地方面做得远远不够。也正因此,下半年将在硬件、软件等场景集中一波攻势,包括智能副驾、智能听写等。
基于搜狗的语音能力和自然交互能力,在非巨头垄断的行业,搜狗将尝试做更多硬件产品的自研、试水、投资,可能自己研发,也可能投资一些公司,以合作的方式把这些产品做出来。
在王砚峰看来,不论是车载市场、家庭场景,还是可穿戴市场,虽然玩家很多,但离市场成熟期还早得很,在这个过程中,王砚峰认为搜狗完全有信心拿出更多爆款产品或有量产品,来抢占市场份额,例如在中国可穿戴设备硬件中排名前五名的糖猫儿童手表,目前出货量已突破100万。
而已如今大火的Amazon Echo为例,王砚峰认为,亚马逊并非单独将这个平台推起来的,而是因为有了巨大的用户量、进而带动了平台的使用量,这才有了更多的开发者加入进来。
在Amazon Echo上,虽然有很多的开发者,但其主功能的比例,绝大部分还是在定位在闹钟、天气,以及音乐上。目前的中小开发者对于智能语音入口的产业格局尚且不成有力威胁,牌还是在巨头的手上。
王砚峰对雷锋网表示,如果智能语音入口级硬件可以自己做,像Amazon Echo那样做出爆款产品,推出自己的硬件,进而抢夺市场入口,这当然是首选。但在手机和电视领域,搜狗暂不会做这样的硬件,也不可能把硬件战线拉得过长。对于搜狗来讲,做十几款硬件也是存在问题的。更适合的做法是——瞄准几款最有用户痛点、最适合自己风格的硬件产品来做。这两个之间并不存在非此即彼的关系,更多的是互补的关系。