雷锋网 AI 科技评论按,近日,「2019 年声纹识别研究与应用学术讨论会」在昆山杜克大学学术楼一楼报告厅举办。本次会议由中国计算机学会和昆山杜克大学联合举办,由昆山市科学技术协会提供支持,协办方包括昆山杜克大学大数据研究中心、清华大学媒体大数据认知计算研究中心和中国计算机学会语音对话与听觉专业工作组。大会主席由昆山杜克大学电子与计算机工程副教授,美国杜克大学电子与计算机工程系客座研究员、博士生导师,武汉大学人工智能研究所兼职教授李明和清华大学媒体大数据认知计算研究中心副研究员何亮共同担任。
上午 9:00,昆山杜克大学学术事物副校长,美国杜克大学讲席教授高海燕参加了开幕式并进行了开场致辞。
随后,中国计算机学会语音对话及听觉专业组副主任,上海交通大学计算机科学与工程系教授俞凯老师进行了致辞,他给大家介绍了本次会议的基本情况,感谢各位参会嘉宾的支持,呼吁语音界团结合作,举办更多的高水平学术活动。
本次会议分为四个环节,第一个环节是关于深度学习的讨论,第二个环节是对抗学习、说话人日志相关技术的讨论,第三个环节的主题是说话人编码,第四个环节的讨论内容是联合学习。
第一个环节:深度学习
首先上台报告的是本次会议主席之一,昆山杜克大学电子与计算机工程副教授,美国杜克大学电子与计算机工程系客座研究员、博士生导师,武汉大学人工智能研究所兼职教授李明,他的分享主题是「基于端到端深度学习的说话人和语种识别」。
他表示,语音作为语言的声音表现形式,不仅包含了语言语义信息,同时也传达了说话人语种,性别,年龄,情感,信道,嗓音,病理,生理,心理等多种丰富的副语言语音属性信息。以上这些语言语音属性识别问题从整体来看,其核心都是针对不定时长文本无关的句子层面语音信号的有监督学习问题,只是要识别的属性标注有不同。
李明介绍了其团队近期在 ICASSP,INTERSEECH 等语音领域重要国际会议上发表的工作:(1)提出基于字典池化的编码层代替原有的平均池化层,效果显著;(2)提出一种结合注意力机制的 CNN-BLSTM 网络框架,能有效地结合 CNN 和 BLSTM 各自的优势,达到更好的系统性能;(3)引入 Center loss 和 Angular Softmax 以学习得到更具鉴别性的说话人特征,后端仅仅使用余弦相似度打分即可得到较好的说话人验证性能;(4)提出在网络学习阶段便引入长度归一化机制,后端仅仅使用简单的内积即可得到较好的说话人验证性能。
最后,李明总结说,近年来,声纹识别的研究趋势正在快速朝着深度学习和端到端方向发展,其中最典型的就是基于句子层面的做法。他认为,在网络结构设计,数据增强,损失函数设计等方面还有很多工作去做,还有很大的提升空间。
第二个演讲嘉宾是中国科学院声学研究所研究员、博士生导师,中国科学院大学岗位教授,英国谢菲尔德大学公派访问学者张鹏远,他讨论的内容是「基于深度学习的短时声纹识别技术」。
他认为,在实际应用中,由于对基于语音的访问控制需求的不断增长,提升声纹识别系统在短时语音情况下的性能变得尤为迫切。短时语音中说话人信息不足以及注册和测试语音的文本内容不匹配,对于主流的基于统计建模的声纹识别系统是一个严峻的挑战。
为了从短时语音中精确提取表征说话人个性信息的说话人特征向量,他们团队提出了一种双路神经网络,从多个时间尺度来对说话人信息进行建模,并融合不同时间尺度的特征来进行建模尺度的互补,显著提升了短时语音条件下的系统性能。
团队进一步针对说话人低维向量如 i-vector,embedding 等进行了后端建模的研究,提出了基于区分性学习方法的神经网络来最大化说话人的类间方差,同时最小化类内方差,网络将说话人的低维向量映射到更具说话人区分性的空间,从而使最终得到的低维向量能更好的进行说话人判决。
上午的第三个演讲嘉宾是中国科学技术大学语音及语言信息处理国家工程实验室副教授宋彦。宋彦老师长期从事人工智能和语音信号智能处理研究,他的演讲题目是「基于深度学习的说话人识别方法」。
他说,目前采用的深度说话人识别方法首先利用神经网络提取前端的帧级特征,然后通过池化映射获得可以表示说话人特性的段级向量,最后采用 LDA/PLDA 等后端建模方法进行度量计算。
相对于传统的 i-vector 生成过程,基于深度学习的说话人识别方法优势主要体现在区分性训练和利用多层网络结构对局部多帧声学特征的有效表示上。如何进一步改进现有的深度说话人学习方法是现阶段的一个研究热点。
对于这一问题,他介绍了三种方法:结合密集空洞卷积和注意力机制的帧级特征提取方法、基于跨层双线性池化操作的段级特征映射方法和基于深度判别分析优化目标实现的端到端的说话人识别方法。
第二个环节:对抗学习、说话人日志
首先上台的是西北工业大学计算机学院教授、博士生导师谢磊。他和大家分享了「深度对抗学习在说话人识别中的应用」有关的内容。
他提及,对抗学习在计算机视觉领域应用非常广泛,在语音领域也用到的很多,近两年来,和语音相关对抗学习研究的文章数量明显增长。
生成式对抗网络 (GAN) 的主要目的是用在数据生成、降噪、等很多场景里面。它还被用在领域自适应里面,形成一个新的分布。第三个广泛的应用是生成对抗样本,这会对分类系统产生大的困扰。很多研究者用对抗样本攻击机器学习的系统,在原始数据上增加一些扰动,生成样本,经过神经网络之后就有可能识别成完全不同的结果。这个思想在图像处理领域非常活跃,会造成错误识别,引起了自动驾驶,安全等领域的研究人员的广泛关注。
在语音领域,GAN 可以用在语音识别、口音自适应上,通过多任务学习和梯度反转层来进行口音或信道的自适应,然后加上其他方法可以得到较好的效果。声纹识别也存在各种不匹配的问题,在声纹识别上也可以使用这一思想。同样的思想也用在了 TTS 语音合成领域,目的是把不同的音素解耦成说话人,风格等,去除噪声对建模的影响。
随后,厦门大学副教授,全国人机语音通讯会议(NCMMSC)常设委员,福建省杰出青年基金获得者洪青阳和听众探讨了「基于对抗多任务学习的抗噪鲁棒说话人识别」相关的经验。
洪青阳表示,声纹识别是比较小众的研究,对很多人来说是比较陌生的领域,但随着技术的发展,现在学术界和工业界越来越重视这方面的研究。最开始研究用的是早期的英语数据,现在数据处理的难度越来越大,有中文数据、长语音,数据中还可能有短语音、噪声等。
针对噪声环境下说话人识别系统下降问题,洪青阳团队设计对抗多任务网络来提取具有高噪声鲁棒性的说话人特征。该网络结构包含有三个部分:一个编码器(encoder), 一个说话人分类器(speaker classifier)和一个判别器(discriminator)。在训练过程中,编码器和说话人分类器联合训练使 speaker embedding 更具有说话个体与个体之间的区分性,判别器和编码器进行对抗训练使得编码器映射得到的 embedding 包含更少的噪声信息。通过这种对抗多任务训练,他们能够得到具有噪声鲁棒性的 speaker embedding,实验结果表明,新的 embedding 在不同噪声干扰的情况下均获得较好的性能提升。
上午最后一个演讲的是中国科学技术大学副教授杜俊,他的演讲题目是「Recent Progress on Speech Enhancement for Speaker Diarization in Realistic Environments」。
他透露,他们团队做了一些说话人日志相关的研究。例如开会的语音,怎么区分每个发言人。目前主流的方法是对数据进行加噪处理,但是他们采用的方法是降噪,加噪后分类的区分度会降低。2018 年,团队在 Github 上开源了一个工具,可以用来降噪。他们的网络和主流神经网络的区别在于中间层的设计不一样。
他提及,语音降噪里面最重要的是信噪比,而深度学习的方法倾向于降噪,由此带来的问题是可能会把语音层度给破坏掉。于是他们设计了一个将信噪比分为多个阶段去学习的网络,分而治之,这样的好处是在每个过程中,在干什么比较清晰。随后他们做了一些测试,在两个数据集上进行了测试,发现他们的方法在增强效果上获得了提升。除了噪声问题之外,语音重叠是目前最有挑战性的问题,很多说话人日志问题都是由于 overlap 的影响没有得到很好的解决。
最后他总结说,可以使用更多的训练数据来增强泛化能力;尤其是在高度不匹配的情况下,用「分层级分阶段」的语音增强方法来处理数据。
他还谈到,他们目前正在做的工作有:充分利用所有的学习目标探索后处理;在去噪架构中加入去混响;检测重叠语音,分离说话人等。
第三个环节:说话人编码
下午第一个演讲的是清华大学语音语言中心副研究员,中心常务副主任王东,他演讲的主题是「说话人识别中的嵌入向量归一化」。
他介绍道,PLDA 和 LDA 的基本思路一样,都用到了 speaker 的信息。LDA 和 PLDA 都能得到很好的效果,虽然 PLDA 包含 LDA,但是 LDA 和 PLDA 加在一起效果会更好,产生这种现象的原因可能是因为归一化的问题。
然后,他又接着讲了 LDA,PLDA 和 PCA 在三种方法的特点,介绍了他们的工作。最后,他总结说,VAE 可以得到更好的 embedding;基于 VAE 的编码在边缘上是高斯约束的;约束边缘可以导致更好的归一化先验;在只有自己或者采用 PLDA 的时候,正规化 embedding 的表现更好等。
下午第二个做报告的是上海交通大学计算机科学与工程系副教授,博士生导师,上海交大-思必驰联合实验室副主任钱彦旻,他的分享主题是「Recent Advances in Deep Embedding Learning for Speaker Identification and Spoofing Detection」。
他表示,说话人识别和欺骗检测近年来受到学术界和业界的广泛关注,人们希望在实际应用中设计出高性能的系统。基于深度学习的方法在该领域得到了广泛的应用,在说话人识别和反欺骗方面取得了新的里程碑。
然而,在真实复杂的场景下,面对短语音、噪声的破坏、信道失配、大规模等困难,开发一个鲁棒的系统仍然是非常困难的。深度嵌入学习是进行说话人识别和反欺骗的一个重要途径,在这方面已有一些著名的研究成果。如之前的 d-vector 特征和当前普遍使用的的 x-vector 特征。
他说,从 2013 年到现在,他们团队发表了 20 多篇说话人识别和反欺骗方面的论文,这些文章大部分是关于说话人识别的。随后,他介绍了他们的一些论文。他们的第一个工作,是 speaker embedding 的数据增强,第二个工作是 speaker embedding 的后处理。目前存在的问题的较大的模型表现很好但是需要的计算资源大,较小的模型需要的资源少但是效果太差。改进的方法是构建性能良好的小型说话人识别嵌入模型。
第三个环节以西北工业大学教授,博士生导师张晓雷的演讲作为结尾。
张晓雷表示,传统声纹识别算法通常首先优化代理损失函数,例如分类错误率,然后使用 DET 曲线或 EER 作为评价指标,这造成了优化目标和评价指标之间的不匹配。
随后,他介绍了两种直接优化评价指标的度量学习后端算法。第一种算法在余弦相似度框架下最小化 EER,第二种算法在马氏距离相似度量框架下最大化部分 ROC 曲线下面积(pAUC);这两种后端算法都可作为深度神经网络的优化目标。
基于余弦相似度量的方法存在局部最优化的问题,需要提供好的初始点。在优化损失度量的时候,高斯分布之间的方差也会变大,需要让这个方差在可控的范围内。这个算法的缺陷是,对参数的调节比较敏感,造成这个现象的原因是,其优化目标是非凸的。
为了解决这三个问题,他们团队提出了基于马氏距离相似度量框架。(1) 优化目标 pAUC 是声纹识别的全局评价指标,AUC 是 pAUC 的特例; (2) 基于马氏距离,所构造的目标函数是凸函数。该方法有很多优点,可以通过参数设定,轻松的选择难分的样本对; 也可以灵活与不同前端结合,如 i-vector / x-vector; 还可以很容易推广到 End-to-End 的框架下。
第四个环节:联合学习。
首先上台的是清华大学媒体大数据认知计算研究中心,副研究员何亮。
他告诉我们,语音是日常生活中简洁高效的自然沟通方式,承载了大量信息。主流研究常从单一角度切入,忽视不同属性间相互影响。从语音产生机制来看,语音的多维属性是紧耦合的;从听感知理论来看,语音的多维属性信息是共同感知,相互存进。
基于上面的认知,他们团队进行联合识别研究,利用贝叶斯公式将目标问题转化为数学表述,推导五种联合识别方法,探索论证网络结构、优化策略和迭代收敛性等。基于前期的 I-vector 和潜在类别模型等研究基础,他和大家探讨了如下工作:
基于通用语音识别数据库,构建并开源联合识别数据集;
基于 DNN-HMM、CTC 语音识别系统,x-vector、DNN i-vector 说话人识别系统,实现并验证联合识别系统,重点是网络共享和迭代优化方法;
基于分解层次化变分自动编码器和多目标优化对抗生成网络,设计通用联合识别网络。
未来,我们的技术应该是什么方向?他对此进行了思考。
他认为,未来有 3 个技术方向可以进行深入研究,一是沿着深度神经网络的主线,利用对抗生成、端到端、网络结构,代价函数等技术对系统性能进一步提升;二是和语音合成相结合的联合学习以及对抗识别;三是和语音识别结合的联合学习。
随后演讲的是清华大学电子系教授欧智坚,他的报告题目是「简洁的说话人识别及语音识别」。
他给大家分享了他们团队 3 个方面的工作:
1)引入 Joint Bayesian 鉴别分析替代现在主流的 PLDA(Probabilistic Linear Discriminant Analysis),不需要指定子空间的维数且提高了说话人识别的性能。
2)引入 Angular Softmax Loss 到说话人验证,不需要 Triplet 数据选择,更容易使用且训练稳定,取得了同等实验条件下优异识别性能,对类别空间为开集的模式识别研究具有指导意义。
3)提出使用神经时序分类(CTC)状态拓扑的条件随机场(CRF)方法,简称 CTC-CRF。在 WSJ、Switchboard、Librispeech 三个常用基准数据集上,CTC-CRF 的性能表现均超过了标准 CTC 模型、基于注意力的模型以及现在广为流行的 Kaldi 工具包中的端对端模型(End-to-end Chain-model),同时具有训练流程简洁、能充分利用词典及语言模型从而数据利用效率高等优势,展示出巨大潜力。
最后,中国科学技术大学电子工程与信息科学系副教授郭武、清华大学电子工程系老师张卫强做了主题为「复杂环境下语音数据的说话人识别及关键词检索初探」的报告。
他们认为,说话人识别和关键词检索目前有 3 个瓶颈问题还没有很好地解决:(1)数据来源广泛,大量语音数据不再是安静环境或合作方式下采集,这使得声学条件非常复杂,传统的特征提取与表征方式受到挑战;(2)多种语种混杂,数据中含有多种语种/方言/口音的数据混合或切换,这使得单一语种关键词检索系统的无法凑效,说话人识别系统的性能显著降低;(3)有效资源稀缺,对于小语种或方言,标注数据极其有限,发音字典难以获取,并且普遍缺少专家知识,这使得传统的依靠大量资源的建模方法根本无法使用,必须探索新的范式。
针对以上问题,他们两个课题组联合做了一系列的攻关。针对说话人识别,他们从两方面进行了改进。(1)他们针对传统的 TDNN 或者 CNN 对语音特征层的编码信息提取不足的问题,提出采用门控的 CNN(GCNN)来对语音特征层进行编码提取说话人底层信息;进一步,他们将门控的信息引入到注意力机制中,从而可以保证最有说话人区分性的信息用来形成表达说话人的 x-vector。(2)得分规整可有效调整说话人测试得分分布,使得分分布接近正态分布,从而提升整体判决的准确率。在测试集与训练集或者开发集不匹配的情况下,如何从大量不匹配的数据中选择得分得到规整参数是保证系统性能的关键。他们利用无监督聚类手段对这些得分进行聚类,采用混合高斯模型来拟合得分分布,只挑选均值最大的一个高斯单元来作为得分规整的参数并将其应用于说话人的得分规整。
针对关键词检索,他们主要针对低资源场景进行研究。(1)对于有几十小时训练数据的情况,他们分别对特征序列和文本序列进行 embedding,然后进行端到端的建模,可以摆脱对语音识别系统的依赖。(2)对于有若干样例的情况,我们采用关键词-填充词的思路,为每个关键词建立模型和搜索路径,可以进行语种无关的关键词检索。(3)对于仅有一个样例的,我们先用神经网络提取合适的特征表示,然后进行模板匹配,可以进行「零资源」关键词检索。
在这四个演讲环节结束后,企业嘉宾上台与学术界老师们共同探讨了声纹识别技术目前的发展现状,未来可能的发展趋势以及自己的学习经历等等。最后,嘉宾们讨论了下次会议相关事宜。
至此,本次会议圆满结束。
本次会议到场的校外听众超过 130 人,特邀演讲嘉宾 18 人,参会高校教师 15 人,参会企业代表 60 人,参会研究生 36 人,在线观看直播的人数也达到了几千人。在每个环节中,听众们的讨论都非常激烈,同学们的提问异常踊跃,嘉宾们学识渊博,不厌其烦地解答相关技术问题,到场的听众都受益匪浅。相信明年的学术研讨会一定会更加精彩,期待!
雷锋网雷锋网