早在2016年10月锤子科技新品发布会上,讯飞输入法就因罗永浩的现场演示火了一把,老罗在现场用很快的语速随口说了一段内容,讯飞输入法瞬间“打”出文字,识别结果一字不差。
当时,讯飞输入法的语音识别率是 97%。而在昨天下午举行的讯飞输入法媒体见面会上,产品总监翟吉博宣布,这个数字变成了 98%。
罗永浩介绍讯飞输入法
此外,据市场品牌负责人李强军介绍,讯飞输入法用户规模突破6亿,语音输入月覆盖率达50%,语音渗透率保持逐年上升态势。
至于准确率是否能够达到百分之百,讯飞输入法产品总监翟吉博的回答是:技术上目前还做不到。
首先,同音字是个难题,只能尽可能提高命中率,这也是为什么搜狗、百度、讯飞都要给输入法加入语音修改功能的原因。其次,用户非常口语化的表达机器无法精准识别,人机交互习惯需要磨合。此外,嘈杂环境下语音识别会受到环境音的影响。
讯飞输入法产品总监:翟吉博
讯飞输入法从人脑神经科学入手对人类记忆进行仿生,实现大量无监督的数据去辅助有人工标注的数据。受图像领域 CNN 应用的启发,科大讯飞研发了深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)语音识别框架,使用大量的卷积层直接将语谱图作为输入,相比传统语音特征作为输入,降低了信息损失,表达了语音的长时相关性。
同时,借鉴图像识别中效果最好的网络配置,每个卷积层使用 3×3 的小卷积核训练更深的 CNN 模型,输出单元直接为最终的识别结果(比如音节或汉字),将感知智能、认知智能等 AI 技术应用在输入法上,一分钟可识别 400 字,并支持多语种实时语音翻译、超长语音输入、耳语输入、离线语音输入等功能。
对于口音和方言识别的难题,讯飞输入法提出方言语音输入方案来解决。依托科大讯飞对 AI 技术及语言深度研究的积累,采用 Multi-lingual 多语言建模,通过多方言数据共享方式训练;辅以 Global Phone全球音素集,从声学层面的相似性统一各方言的音素定义,对方言“语图谱”模型做进一步精进,从而有针对性地提升方言语种的识别能力。
目前讯飞输入法支持 22 种方言,其中粤语、四川话、东北话等识别率均已超过 90%。2017年对外发起“方言保护计划”,建立“中国方言库”,积累海量方言数据,让这些数据为深度学习提供素材。本月底,讯飞输入法将新增苏州话识别,方言识别语种将扩充至23种。
基于科大讯飞精简和优化的 Hybrid-DFCNN 全新语音识别框架,6月底讯飞输入法将上线 Hyper-CNN语音新引擎,随之通用语音识别准确率将相对提升 15%,此外可以优化中英混合语音输入、粤语等重点方言、标点判断准确率,提升语音输入的体验。
重新定义键盘,新增面对面翻译和 OCR 拍照
在百度输入法的发布会上,AIG 负责人王海峰发表了他对输入法的看法,认为即便现在有语音输入的加持,其实还不足够,未来的输入方式一定是 AI 加持的“全感官输入”。讯飞的判断是,输入法将不再局限于五笔、九宫格、二十六键、手写固定键盘形态,从而推出“莫得键盘”、“语音键盘”、“VG 语音交互面板”等人机交互模式。
莫得键盘即“没有”键盘,基于讯飞输入法智能语音技术,支持语音输入、语音口令控制,实现无键盘输入。为语音重度用户量身定制了语音键盘,呈现便捷的语音输入形态,只凭一张嘴就能轻松打字、修改甚至自动加标点符号,不需学习其他技能。基于智能语音应用,打造 VG(VoiceGame)语音交互面板,利用 AI 在交互层面进行了尝试。输入过程等同“玩游戏”,语速快慢、声音大小等直接体现了创意交互。
讯飞输入法将语音识别、语音合成以及机器翻译等新技术融合在一起,新增面对面翻译,支持中文与英日韩俄多语种即时翻译,并且将面对面的交互方式引入语音翻译应用中。例如,在对话双方各讲母语时,另一方就会同步看到翻译结果。
基于用户刚需,新增了 OCR 拍照输入,可以识别书本、路牌、名片等印刷体上的文字以及手写字体。手写识别准确率也高达 90% 以上。
会后,雷锋网分别试用了搜狗输入法和讯飞输入法。
讯飞语音可一次性不间断输入249个字,搜狗语音可输入221个字。整体来看,讯飞识别率更高一些。
在对诗歌的识别方面,两家输入法都有很好的表现。读者也可试试用自己家乡的方言,看看这些有 AI 加持的输入法能否精准识别。
随着语音识别技术的发展,可能未来我们真的不再需要用手打字,至于讯飞对未来人工智能语音输入的展望,翟吉博的回答是:“现在的产品在省时高效和足够简单自然这些维度上并没有做到极致。假如有一天技术成熟了,我们通过意念或者脑电波输入文字,打开微信,盯着屏幕看两秒,文字就发出去了,我想这会是一个更加极致的输入法。”
据速途研究院2017年调研数据显示,输入法市场上,搜狗以 63.6% 的市场份额遥遥领先,接下来是百度和讯飞。王海峰说,百度输入法是百度 AI 技术应用的桥头堡,新的 AI 技术将会首先应用在输入法上。搜狗 CEO 王小川也表示将 AI 赋能升级输入法列为搜狗 2018 年度 AI 战略之一,并且输入法不止可以打字,还将承载信息获取和流量分发。在输入法都打 AI 牌的年代,讯飞的优势何在?
对此,翟吉博在接受雷锋网的采访时表示,讯飞一直以来聚焦于语音输入,对于语音输入的用户场景体验和未来发展有着更深的理解。此外, 在语音技术方面持续创新,会一直寻找新问题并用技术和产品设计解决。“我们永远是往前多走一步,持续探索。”
但是,据雷锋网了解,目前用户的输入习惯主要还是以拼音输入为主。速途研究院的数据显示,六成多的用户还是选择拼音输入,其中九宫格拼音输入最接近用户的输入习惯,可以单手掌控输入。
随着技术的发展,语音转化成文字的正确率越来越高,选择语音输入的用户在不断增多。对于语音输入,讯飞输入法支持 22 种方言,百度输入法则提供了语音翻译,支持 28 种高频次语言同声传译。
目前输入法市场格局形成了一超多强的局面,搜狗输入法长期保持市场第一,且不断发展。百度输入法借AI 之力奋起直追,讯飞等输入法也在不断差异化,努力加强个性化特色功能。在识别率方面,头部厂商在语音识别准确率上均达到 97% 以上的高水准,而百度和搜狗都拥有得天独厚的庞大搜索数据库为深度学习算法提供燃料,语音输入用户习惯的养成却尚待时日,主打 AI 语音识别的讯飞,可能还需要再继续探索其他差异化策略。
相关文章:
百度输入法 8.0 版本上线,王海峰称其是“百度 AI 的桥头堡”