新里程碑！微软语音到文字转录已经达到人类水平

2017/08/21 12:52

雷锋网 AI 科技评论按：语音到文字的转换是语音研究领域的重要课题。自引入神经网络的方法以来，语音识别正确率有了长足的进展，也为苹果 Siri、亚马逊 Echo、科大讯飞语音输入法等等实际产品提供了生长的土壤。面对算法识别总还是比人类要差一些的现状，微软刚刚发布一篇博文公布了自己的最新成果，达到人类水平已经不是梦想。雷锋网 AI 科技评论编译如下。

2016年，微软语音和对话研究团队对外公布了一则里程碑性的消息，他们在 Switchboard 数据库的对话语音识别任务中达到了人类的一致性水平，这意味着他们的系统识别对话中文字的能力已经和专业的人类转录员一样好。

当时微软的研究人员们测量的这个转录系统的单词误识别率为5.9%，这个表现已经达到了他们测量的人类转录员的水平；其它的研究人员也进行了自己的研究，运用了一个更加深入的多转录员协作模式，达到了更好的5.1%的人类平均单词错误率。这个结果和更早的研究是相符的，其中表明如果人类更仔细、更努力地去做，他们就能够对对话中出现的确切单词有更高的一致性。

一年后的8月20日，微软语音和对话研究团队负责人黄学东兴奋地公布了他们的最新进展，他们的语音识别系统也达到了同样的5.1%的错误率。这是业界的新的里程碑，也比他们去年的成绩又有显著的提高。研究的细节在他们一同发表的论文「The Microsoft 2017 Conversational Speech Recognition System」中进行了详细介绍。

Switchboard 是一个录制的电话对话语料库，语音研究界用这个语料库测试语音识别系统的表现已经有20多年的时间。测试任务是对陌生人之间关于运动和政治话题的讨论进行从语音到文字的转录。

相比去年的单词误识别率，今年的系统又把它下降了12%。这个新系统在他们使用的基于神经网络的语音语言模型上又继续加入了一系列改进，其中添加了一个额外的 CNN-BLSTM（convolutional neural network combined with bidirectional long-short-term memory，带有双向LSTM的卷积神经网络）用来提升语音建模的效果。并且，系统中以前就在使用的从多个语音模型进行综合预测的方法，如今在帧/句音级别和单词级别下都可以发挥效果。

除此之外，微软的研究员们还根据整个对话过程的历史记录来预测接下来可能会说的话，进一步加强了识别器的语言模型，大大增强了模型对话题和局部上下文的适应能力。

在开发过程中，研究团队也从自家的大规模深度学习软件 Microsoft Cognitive Toolkit 2.1 (CNTK) 中获益匪浅，不管是探索模型架构还是优化模型的超参数。并且，微软在云计算基础设置方面的投资，尤其是 Azure 云GPU，也帮助提升了训练模型、测试新想法的效果和速度。

在过去的25年中，达到与人类水平的错误率都是这个领域的研究目标。如今，微软在长期研究中的投入已经证明了它们的价值，微软未来也会在 Cortana、Presentation Translator、Microsoft Cognitive Services等自家产品和服务中让用户们感受到这些技术的好处。看到百万级的用户每天使用这些产品，微软的研究团队也感到非常欣慰。

在语音识别方面，业界和学术界有许多研究团队都做出了杰出的贡献，微软研究团队也表示自己从这个领域的整体发展中得到了很大收获。不过，虽然在 Switchboard 语音识别任务中取得了5.1%错误率这样的喜人成果，整个语音研究领域还有许多的挑战等待克服，比如在有噪音、录音距离较远的场景下，在语音有口音的情况下，在只有非常有限的讲话风格和语言训练数据的条件下，达到接近人类水平的语音识别效果都还是很大的困难。另一方面，在教会了电脑把语音转换为文字之后，下一步还要教会电脑理解其中的含义和目的。在微软研究团队看来，从语音识别到语音理解将会是语音相关技术的下一个重要前沿。

论文地址：https://www.microsoft.com/en-us/research/publication/microsoft-2017-conversational-speech-recognition-system/

via Microsoft Research Blog，雷锋网 AI 科技评论编译