专栏 |解读语音质检方案：从关键词检索到情感识别

关键词检索语音质检语音

2017/11/03 14:41

雷锋网编者按：本文作者温正棋为极限元智能科技 CTO 、中国科学院自动化研究所副研究员，毕业于中国科学院自动化研究所，在国际会议和期刊上发表论文十余篇，获得多项关于语音及音频领域的专利。雷锋网授权发布本文。

为了提高客户满意度、完善客户服务，同时对客服人员工作的考评，很多企业会对此采用质检的方式来保证其服务质量。以服务行业为例，呼叫中心是一个促进企业营销、市场开拓并为客户提供良好的交互服务系统，其位置相当重要。传统的质检方法需要质检人员通过人工测听的方式进行抽检；人工抽检方法工作量大且效率低，难以有效评价客服人员的服务质量。

随着人工智能技术的发展，语音和自然语音处理技术不断取得突破，采用智能化的方法对电话语音中的内容进行深层次的分析，可以有效的节约人力成本并提高工作效率。语音质检方案主要涉及语音关键词检索、音频对比、情感识别等核心技术。

1 语音关键词检索

1.1 语音识别声学模型

随着深度学习的兴起，深层神经网络也应用到了语音识别中的声学建模，通过深层神经网络模型替换 GMM-HMM 模型里的 GMM 模型，HMM 模型中的状态转移矩阵部分不变。DNN 通过在输入端进行扩帧，从而能够利用上下文信息，同时这种模型具有较强的非线性建模能力，但 DNN 的扩帧是有限的，所以它能够利用的上下文信息是有限的。针对这一问题提出了基于 RNN 的声学模型，RNN 能够更充分的利用历史信息进行声学模型建模。但是在 RNN 训练过程中会存在梯度消失和梯度膨胀的问题，梯度膨胀可以在训练过程中加一些约束条件解决，当梯度超过一定值以后设定一个固定值；针对梯度消失问题，比较有效的解决方法是将里面的 RNN 单元变成长短时记忆模型 LSTM，这种模型的缺点是会增加计算复杂度，这也是在构建声学模型时需要考虑的问题。CNN 是另一种比较主流的声学模型，这种模型中包含的参数较少，谷歌、微软、IBM 等企业均尝试使用非常深的 CNN 模型，其识别性能超过其它深层神经网络。

CTC 是一个训练准则，在传统的基于深度学习的声学模型输出中，每个 phone 可能包含十几桢甚至更多桢，因为它并不是一个尖峰，但是通过 CTC 训练会把它变成一个尖峰；CTC 可以将每一帧变成一个 blank 帧或者对应的建模单元（音素、音节等），而每个建模单元只需要对应几帧就可以了。在解码的时候可以降低对 black 桢的搜索宽度，这样可以显著的增加解码速度。减少解码帧有两种方法，一种是通过跳帧的方法，另一种在解码过程中动态调整 beam 值，特别是遇到空白桢的时候把并 beam 值减少。

1.2 基于语音识别的关键词检索

基于语音识别的关键词检索是将语音识别的结果构建成一个索引网络，然后把关键词从索引网络中找出来。从图 1 中可以看到，首先将语音数据进行识别处理，从里面提取索引构建索引网络，进行关键词检索的时候，我们会把关键词表在网络中进行搜索，找到概率最高的，输出其关键词匹配结果。

专栏 |解读语音质检方案：从关键词检索到情感识别

图1. 基于语音识别的关键词检索

构建检索网络是语音关键词检索的重要环节。如图 2 所示，在第一个时间段内（w1、w3、w6、w7），这句话被识别成了四个不同的词，语音识别只能给出一条路径，但在语音关键词检索网络中可以从四个结果中进行筛选。

专栏 |解读语音质检方案：从关键词检索到情感识别

图 2 构建检索网络示意图

确定关键词检索网络后，接下来进行的是关键词检索。关键词检索可以基于音节信息，首先将用户设定的关键词文本解析成音节序列，再从检索网络中找出匹配结果，相比直接对文本结果进行检索，这种方法的容错性更强，而且关键词检索中的声学模型可以是基于 CTC 的模型，因此，计算量更小，执行效率更高，更适用于语音质检这种海量数据检索的应用场景。

2 音频对比

音频比对是指从音频信号提取特征，通过特征进行比对的方法进行有害信息检索的方法。该方法的核心在于提取的特征值需要满足一定的要求，比如抗噪性、转换不变性、鲁棒性、快速性等特点，主要是为了满足同一音频能够在不同声道下进行准确检索。传统的 MFCC、FBANK 等声学特征已经不能满足音频比对任务的需求。图 3 是一个基于频谱最大值来建模的音频比对方法。在完成最大值点完成建模后，需要进行特征的构建。而特征构建是通过最大值点之间的距离来建模，例如两个最大值点的距离、位置信息作为一个固定的特征来完成音频特征信息的构建。有了上述音频特征之后，就可以对两个不同音频进行检索，最大相似度的地方就是相似点，这种技术最适用于文本内容无关的录音片段的检索。

专栏 |解读语音质检方案：从关键词检索到情感识别

图 3. 基于频谱最大值建模的音频比对方法

3 情感识别

语音是人类交际的最重要的工具之一。人们在进行自然口语对话时，不仅传递声音，更重要的是传递说话人的情感状态、态度、意图等。一般的情感语音识别系统框图如图 4 所示。根据情感模型的不同，情感语音识别主要分为离散情感识别和连续情感语音识别。

专栏 |解读语音质检方案：从关键词检索到情感识别

图 4. 语音情感识别典型系统框图

离散情感识别是一个典型的模式分类问题，各种传统的分类器均被广泛应用于语音情感识别系统。例如隐马尔科夫模型、高斯混合模型、支持向量机，人工神经网络等。维度情感识别一般被建模为回归预测问题。在机器学习算法层面，根据是否考虑序列上下文信息可将现有方法分为静态机器学习算法和动态机器学习算法。在静态机器学习算法中，AdaBoost、高斯混合模型、人工神经网络、支持向量回归等广泛应用于维度情感识别中序列单元的回归问题。鉴于维度情感的序列标注情况，序列上下文信息有助于提高情感识别性能，因而更多的工作集中于动态机器学习算法。随着深度学习技术的发展，基于 LSTM-RNN 的系统便被更加广泛的应用于维度情感识别领域。

情感识别解决方案通过分析不同情感状态和语音声学参数的关联关系，抽取出鲁棒声学特征参数，综合考虑不同人对同一段语音的情感感知结果，建立语音情感识别模型。为了提高语音情感识别的鲁棒性，采用非线性建模方法建立情感语音分析模型，有效的解决了噪声环境下情感语音分析问题。针对情感识别中的时序建模问题，采用一种基于特征层建模和决策层建模相结合的多尺度时序建模方法。在特征层实现短粒度的时序建模。在决策层实现更长粒度的时序建模，并与特征层的时序建模实现相互补充。通过上述改进，有效的提高了语音情感识别的准确率，可以对通话者的情感状态进行动态的捕获和跟踪。（雷锋网）