依图科技入局语音赛道 AI独角兽为何高调换轨？

依图 AI 语音识别科大讯飞

作者：王刚

2018/12/11 17:24

眼下，行业巨头都在打造自己的智能语音生态系统，国外有IBM、微软、Google等，国内则有百度、阿里、科大讯飞、搜狗和云知声。

但这一次，四大AI独角兽之一的依图科技也正式拿到入场券了。

雷锋网12月11日消息，依图科技今日公布了其在中文语音识别技术上的最新突破，宣称在全球最大的中文开源数据库AISHELL-2中，依图短语音听写的字错率（CER）仅为3.71%，相比原业内领先者提升约20%，大幅刷新现有纪录。

此外，依图科技现场宣布了与微软Azure和华为的两大全新合作。

为何此时入局？

对于依图来说，从计算机视觉进入到语音识别，是一次巨大的跳跃，因为目前行业巨头林立，入局者比依图更早拿到市场份额。

依图科技入局语音赛道 AI独角兽为何高调换轨？

但是依图首席创新官吕昊博士看来，现在的语音识别技术发展还是不够的，相较于人脸识别的准确率而言，语音识别发展目前都比较缓慢，无论是学术界还是工业界，对于语音市场都很看好，这意味着未来发挥空间十分巨大。

雷锋网也了解到，语音识别技术其实几十年前就在发展，从50年代的贝尔研究所到八九十年代美国和日本在该技术上的突破，从软件到硬件都在取得进展；我国语音识别研究起始于1958年，后来的“863计划”中语音识别成为重要课题，中国的语音识别技术开始进入了真正研究阶段。

但由于语音的场景复杂，技术突破一直处于缓慢的状态，目前应用较好的也只是特定的几个场景。目前业内一些机构已宣传识别技术达到了人类水平，但大多数情况下都来自安静、近场等受限环境下的结果。而复杂的场景诸如电话、语音节目、远场、混响、噪声、口音、语音节目等，则需要针对性地开发不同模型。

“但技术无法束缚我们的想象力。”

吕昊上任依图首席创新官近一年时间，去年年底，他辞去了在Google的工作，离开了生活十年的美国，回国加入依图。他觉得，在语音识别领域，依图科技是一名新生，但立志扮演创造行业拐点的角色。

“依图入局语音市场的初心就是源于好奇心，想用算法技术推动实际问题的解决。我们在AI领域做了那么多年，已经能深入理解和推广人工智能的应用了。”

可见，作为AI理解世界重要的组成部分，作为人人交互、人机交互最重要的入口，语音识别正在拉伸依图的AI版图。

尽管这次官方说法是“首次进入语音行业”，但实际上，依图一直都有涉猎这个领域，语音和语义的相关技术之前在其医疗的相关产品中有过展示，只是没有公布。

吕昊坦言，科大讯飞做语音技术，的确是业内领先的，但是科大讯飞的语音有多好、和其他语音的距离有多远这些方面，其实很难界定——因为不太透明。准确率上，行业水平都是98%-99%，在什么情况下测的，大家也无法评判。

实际上，入局语音市场，还有个因素，吕昊也一并告诉了雷锋网。

“工业界目前做语音识别的水平已经远远超过学术界，在一些公开数据集上有着1-3倍的性能提升。而工业界目前做语音技术的就那么几家，靠学术界去往前推进商业模式，似乎没有可选的路径，因为数据成本非常之高。干脆自己来做。”

联手巨头：有了华为和微软，语音市场的入场券拿的更快

这一次，选择新赛道，依图并非想做“孤胆英雄”。

因为华为、微软都选择和依图站在了一起。

发布会现场，依图宣布联合微软Azure推出依图语音开放平台，会向第三方开放，后续两家公司将在智能语音领域双方有新的动作。

此外，依图还联合华为发布“智能语音联合解决方案”，该方案基于依图语音开放平台及华为全栈全场景昇腾（Ascend）系列芯片和面向数据中心侧的Atlas 300 AI加速卡，也向第三方开放。

“我们始终认为，核心技术的突破，依然是当前破局中文语音识别发展的关键。”吕昊表示。

当下，AI产业链由基础层、技术层与应用层构成。同样，智能语音识别亦由这三层组成。基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化，近年，语音识别准确率取得了不断的提升，外界也在各个巨头的测试结果中观察到了“媲美人类”、“与人相似”等字眼。

但语音识别领域一直存在两条红线：3%和15%。

依图科技入局语音赛道 AI独角兽为何高调换轨？

一般认为，字错率在低于3%时不会影响文字可读性，而超过15%则毫无可读性，体验好感大大降低。在不同场景下，不同算法的表现可能会有很大差异。尤其是中文语音识别技术领域，汉语的博大精深带来的同音不同意等问题，更对语音识别的处理难度带来极大挑战，显著影响最终的使用体验。

会上，依图推出的中文语音识别算法，与业内原有领先者相比准确率大幅提升。

近期公开的AISHELL-2的三个测试子集，以及来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中，依图字错率几乎全部在15%以下（未过红线）。

雷锋网注：AISHELL-2是AISHELL Foundation和希尔贝壳宣布的开源数据库，数据规模达1000小时，是目前全球最大的中文开源数据库。它由1991名来自中国不同口音区域的发言人参与录制，经过专业语音校对人员转写标注，通过了严格质量检验，数据库文本正确率在96%以上。

值得一提的是，在AISHELL2-2018A-EVAL数据集中，依图的识别准确率高达96.29%，字错率（CER）仅为3.71%。

入局超百亿美元市场了，依图觉得自己“还年轻”

智能语音技术是人工智能应用最成熟的技术之一，并拥有交互的自然性，因而，其具有巨大的市场空间。

中国语音产业联盟《2015中国智能语音产业发展白皮书》数据显示，2017年全球智能语音产业规模将首次超过百亿美元，达到105亿美元。中国2017年智能语音产业规模也将首次突破百亿元，五年复合增长率超过60%。

此前，科大讯飞发布2018年Q3报告，前三季度实现营收52.83亿元，同比增长56%，主要由于持续加大AI相关领域的研发投入、生态体系构建的投入以及在教育、政法、医疗、智慧城市等重点赛道的市场布局投入。科大讯飞高级副总裁、研究院院长胡国平在公开场合表示，科大讯飞在语音识别错误率方面每年相对下降30%以上。

吕昊直言，从数据量、入局时间等角度来看，依图和BAT、科大讯飞等相差很多量级，但是作为新秀，正是看到市场变动慢才觉得有机会，也是以这种发布会的形式让外界了解语音市场的真实现状。

对于语音开放平台发布之后的场景落地，吕昊表示，眼下依图并没有特别针对某个场景去发力，而是先推出普适性的语音开放平台，走向通用化，方便外界调动API，在不同场景都能实现工作算法的修改和数据的搜集。

值得一提的是，依图在现场发布了“听写大会”微信小程序，让用户可以在不超过60秒时间内直观感受到语音识别技术的真实表现，在业界也属首次，公开透明的体验各类算法的水平差异。

语音识别技术近年进展

语音市场进入新玩家，异常火热，作为重度关注AI领域的雷锋网，也曾梳理了近年来语音识别技术发展基本轨迹：

2017 年 3 月，IBM 结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。其中集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破。
2017 年 8 月，微软通过改进微软语音识别系统中基于神经网络的听觉和语言模型，在2016年基础上降低了大约 12% 的出错率，错词率为 5.1%。
2017 年 12 月，谷歌发布全新端到端语音识别系统（State-of-the-art Speech Recognition With Sequence-to-Sequence Models），错词率降低至 5.6%。
2018 年 6 月，阿里巴巴达摩院推出了新一代语音识别模型 DFSMN，将全球语音识别准确率纪录提高至 96.04%，错词率降低至 3.96%。
2018 年 10 月，云从科技发布全新 Pyramidal-FSMN 语音识别模型，将错词率（Worderrorrate，WER）降低至 2.97%，较之前提升了 25%。

当然，今天，我们需要记上一笔2018年12月11日依图的这次语音开放平台发布会。

站在AI的路口，依图科技又进一步了。