亚马逊的人工智能将实时语音识别错误率降低了6.2%

Alexa 亚马逊人工智能

2019/08/30 17:30

亚马逊的人工智能将实时语音识别错误率降低了6.2%

据 Loup Ventures 不久前发布的2019年语音助理智商测试的结果，通过对每个人工智能系统的800个相同问题的测试，谷歌助手再次引领了这一潮流，与去年一样，100%完全理解了被问到的问题，并正确回答了其中的92.9%，比去年的85.5%的正确率要高。

相比之下，苹果的Siri在理解水平和正确回答水平这两方面的能力也都有提升，从去年的99%理解水平上升到今年的99.8%，同时在正确回答水平方面，从78.5%上升到2019年的83.1%。

尽管亚马逊的Alexa再次位居第三，但今年也算是取得了重大进展，理解了99.9%的问题，并正确回答了79.8%的问题，比去年的Siri表现要好。近日，据外媒报道，亚马逊通过人工智能将实时语音识别错误率降低了6.2%，可以算是一个不小的进步。

据了解，自动语音识别系统是将语音转换为文本，如Alexa的核心系统，其中一个组件是一个模型，它预测哪个单词将出现在一系列单词之后。它们通常是基于n-gram语言模型，这意味着它们可以算出给定过去n-1个单词的下一个单词出现的概率。

N-Gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关。（这也是隐马尔可夫当中的假设）整个句子出现的概率就等于各个词出现的概率乘积，各个词的概率可以通过语料中统计计算得到。

但是，像递归神经网络这样的体系结构就比较难以融入实时系统，由于其学习长期依赖关系的能力，通常被用于语音识别，并且常常难以从多个语料库中获取数据。

这就是为什么亚马逊Alexa科研人员要研究能使得这种人工智能模型在语音识别中更实用的技术的原因。

雷锋网了解到，在奥地利格拉茨举行的2019年Interspeech会议上，计划发表的一篇博客和论文《ASR的可伸缩多语料库神经语言模型》中，声称他们可以将单词识别错误率比基线降低6.2%。

神经语言模型（NLM）在自动语音识别（ASR）和其他任务中的表现优于传统的N-gram语言模型。然而，要在实际的大规模ASR系统中使用NLM，还需要解决一些挑战。在一些解决方案中，从异源语料库中训练NLM，限制潜伏期影响和处理二次通过重测器中的个性化偏差。

研究人员通过建立领域内和领域外训练数据集的传统模型来解决数据稀缺的问题，这些模型是线性组合的，他们给每个语料库分配了一个分数来衡量其与域内数据的相关性，这决定了为补充数据集选择样本的可能性。

然后他们应用了迁移学习transfer learning，即机器学习的一种，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习人员持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

接下来，研究人员将数据通过一个带有n-gram语言模型的语音识别器传递，以使用人工智能模型来改进其预测。为了将传统模型拒绝人工智能模型考虑的假设的风险降到最低，他们使用人工智能模型生成合成数据，为一次通过模型提供训练数据。

训练数据中的样本是成对的词汇，而不是单个词汇，这是一个称为噪声对比估计的方案的一部分，其中一个成对词汇是真正的目标，而另一个词汇是随机选择的。该模型的任务是通过直接估计目标词汇的概率来学习区分。

最后，研究人员量化了人工智能模型的权重，以进一步提高其效率。量化考虑特定变量可以接受的全部值范围，并将其拆分为固定数量的间隔，这样一个间隔内的所有值都近似于一个数字。据研究人员透露，由于量化，人工智能模型在50%的情况下使得语音处理时间增加不超过65毫秒，在90%的情况下增加不超过285毫秒。雷锋网雷锋网