云从科技刷新一项语音识别纪录：将 Librispeech 数据集上的错词率降至 2.97%

语音识别云从科技 Librispeech

作者：丛末

2018/11/15 10:37

云从科技

+8AI影响因子

活动

企业：云从科技

操作：刷新记录

事项：云从科技刷新一项语音识别纪录

开发

企业：云从科技

操作：刷新记录

内容：云从科技刷新一项语音识别纪录

更多相关

雷锋网 AI 科技评论按：10 月 29 日，云从科技宣布在全球最大的开源语音识别数据集 Librispeech 上，将错词率（Worderrorrate，WER）降到了 2.97%，并将 Librispeech 的 WER 指标提升了 25%，超过阿里、百度、约翰霍普金斯大学等企业及高校，刷新了原先记录。

将 Librispeech 数据集上的错词率降至 2.97%

Librispeech 是当前衡量语音识别技术的最权威主流的开源数据集，错词率（Worderrorrate，WER）是衡量语音识别技术水平的核心指标。

云从科技刷新一项语音识别纪录：将 Librispeech 数据集上的错词率降至 2.97%

DS2：百度，ESPnet：约翰霍普金斯大学，DFSMN-CE：阿里

云从科技在 Librispeech 数据集上将错词率（Worderrorrate，WER）降到了 2.97%，较之前提升了 25%。这项成果有利于语音识别技术的进步，也有助于推动语音识别带来良好的智慧交互体验。

云从科技此次推出的语音识别模型 Pyramidal-FSMN 融合图像识别与语音识别的优势，将残差卷积网络和金字塔记忆模块的序列记忆网络相结合, 能够同时有效的提取空间和时间上不同粒度的信息，对比目前业界使用最为广泛的 LSTM 模型，训练速度更快、识别准确率更高。

语音识别技术近年进展

2017 年 3 月，IBM 结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。「集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破」。相对应的是去年 5 月的 6.9%。

2017 年 8 月，微软发布新的里程碑，通过改进微软语音识别系统中基于神经网络的听觉和语言模型，在去年基础上降低了大约 12% 的出错率，错词率为 5.1%，声称超过专业速记员。相对应的是去年 10 月的 5.9%，声称超过人类。

2017 年 12 月，谷歌发布全新端到端语音识别系统（State-of-the-art Speech Recognition With Sequence-to-Sequence Models），错词率降低至 5.6%。相对于强大的传统系统有 16% 的性能提升。

2018 年 6 月，阿里巴巴达摩院推出了新一代语音识别模型 DFSMN，将全球语音识别准确率纪录提高至 96.04%，错词率降低至 3.96%。

2018 年 10 月，云从科技发布全新 Pyramidal-FSMN 语音识别模型，将错词率（Worderrorrate，WER）降低至 2.97%，较之前提升了 25%。

Pyramidal-FSMN 语音识别模型原理解析

云从科技提出的新型网络结构，能更加有效的提取空间和时间特征的角度，为语音识别进一步发展提供了一些新的思路：

模型设计采用一种残差卷积网络和金字塔记忆模块的序列记忆网络相结合的结构；
训练方式使用 lattice-free 最大互信息（lattice-free maximum mutual information，LF-MMI/Chain）与交叉熵（cross entropy，CE）损失函数相结合的多任务学习技术；
解码部分采取 RNNLM rescoring 的方式，利用 RNN 提取一个句子中的长期语义信息，从而更有效地帮助声学模型得到准确的句子。

如下图所示，作者采用了由 6 层 Residual CNN 和 10 层 Pyramidal-FSMN 相结合的网络结构。前端网络借鉴了图像识别中经典的 Residual CNN 结构，更有效地提取特征与时间相互的关联信息，同时 skip connection 避免了 CNN 网络加深之后梯度消失和梯度爆炸问题。在金字塔记忆模块中，浅层的网络主要聚焦于音素本身的特征学习，所以只需抽取短时上下文信息，而深层的网络由于已经学习到了足够的固定时间的音素信息，需要学习长时间包括语义和语法特征，所以深层抽取长时间的上下文信息。利用这样的金字塔结构，既能减少参数，缩小模型结构，也能更加精巧的模拟人类处理语音信号的过程，提高识别效果。

云从科技刷新一项语音识别纪录：将 Librispeech 数据集上的错词率降至 2.97%

在损失函数部分，作者采用了基于 LF-MMI 的序列性训练方式。同时为了解决序列性训练容易导致过拟合的问题，又引入了传统的交叉熵损失函数，在 LF-MMI 输出之外加入另一个输出层作为一个正则技术，通过设置交叉熵的正则化系数，两个目标能够有效地学习并且避免过拟合问题。

最后，作者使用了 RNNLM rescoring 技术对解码做进一步处理。在没有 RNNLM rescoring 的情况下，Pyramidal-FSMN 已经达到了目前最好的结果，rescoring 之后又有了更进一步的提升。

声学模型和 RNNLM 的训练数据完全基于 Librispeech 和通用的语言模型数据集，并没有额外引入其他的训练数据这样的「技巧」性策略。

论文地址：https://arxiv.org/abs/1810.11352