年度盘点｜AI 科技评论做过的语音识别公开课

作者：老王

2017/01/28 11:36

2016 年是雷锋网 AI 科技评论非常重要的一年，我们围绕人工智能做了一系列的业界、学界、开发者报道，也请了一系列导师大牛过来给我们做技术解读的公开课，在给这些导师大牛提供了一个绝佳展示舞台的同时，也给读者们带来了最深度的公开课内容，下面是雷锋网 AI 科技评论年度盘点之语音识别篇。

从声学模型算法总结 2016 年语音识别的重大进步

嘉宾介绍：薛少飞，阿里巴巴 iDST 语音识别专家，中国科学技术大学博士。现负责阿里声学模型研究与应用：包括语音识别声学建模和深度学习在业务场景中的应用。博士期间的研究方向为语音识别说话人自适应，提出基于 Speaker Code 的模型域自适应方法，在语音相关的会议和期刊上发表论文十余篇。

在过去的一年中，语音识别再次取得非常大的突破。IBM、微软等多家机构相继推出了自己的 Deep CNN 模型，提升了语音识别的准确率；Residual/Highway 网络的提出使我们可以把神经网络训练的更加深。

而诸如 CTC、Low Frame Rate、Chain 模型等粗粒度建模单元技术使得语音识别准确率得到提升的同时，解码速度也可以大大加快。

本期雷锋网硬创公开课特邀供职于阿里巴巴 iDST 的语音专家薛少飞博士，从学术的角度回顾过去一段时间里语音识别技术的发展状况。

本期雷锋网硬创公开课的分享主要包括三大部分：

深度神经网络声学模型发展回顾：简单回顾深度神经网络技术在语音识别声学模型中的应用历史；
前沿声学模型技术进展：介绍近期几个比较有意思的声学模型技术进展，包括 Deep CNN 技术、Residual/Highway 网络技术和粗粒度建模单元技术。当然这里并没有把所有的新技术进展都囊括进来，比如 Attention 技术。只是以这三条线路为例看看语音识别声学模型技术的进展和未来的发展趋势。
介绍绍阿里巴巴的语音识别声学模型技术。

详解语音处理检测技术中的热点——端点检测、降噪和压缩

嘉宾介绍：李洪亮，毕业于中国科学技术大学。科大讯飞资深研发工程师，长期从事语音引擎和语音类云计算相关开发，科大讯飞语音云的缔造者之一，主导研发的用于讯飞语音云平台上的语音编解码库，日使用量超过二十亿。主导语音类国家标准体系的建设，主导、参与多个语音类国家标准的制定。

他今天的分享将分为两大部分，第一部分是端点检测和降噪，第二部分是音频压缩。

作为一种人机交互的手段，语音的端点检测在解放人类双手方面意义重大。同时，工作环境存在着各种各样的背景噪声，这些噪声会严重降低语音的质量从而影响语音应用的效果，比如会降低识别率。未经压缩的语音数据，网络交互应用中的网络流量偏大，从而降低语音应用的成功率。因此，音频的端点检测、降噪和音频压缩始终是终端语音处理关注的重点，目前仍是活跃的研究主题。

为了能和您一起了解端点检测和降噪的基本原理，带您一起一窥音频压缩的奥秘，本次硬创公开课的嘉宾科大讯飞资深研发工程师李洪亮，将为我们带来主题演讲：详解语音处理检测技术中的热点——端点检测、降噪和压缩。

语音识别的痛点在哪，从交互到精准识别如何做？

嘉宾介绍：赵艳军，AIUI项目负责人，科大讯飞云平台研发主管，负责讯飞开放平语音识别、语音合成、声纹、唤醒等多项产品研发，同时负责人机交互解决方案AIUI的开发，致力于把核心技术更好的产品化，使人与机器的交流像人与人之间一样简单，自然。

语音识别是目前应用最成熟的人机交互方式，从最初大家体验过的有屏手持设备这种近场的语音识别，如Siri以及各种语音助手，到现在，语音识别的应用已经完成了向智能硬件以及机器人上延伸，不过，新的人机交互对硬件、算法要求更加苛刻，各企业正面临着巨大的挑战。

那么实现人机交互需要解决哪些问题？这其中的关键技术有哪些？人机交互的未来趋势如何？本期硬创公开课邀请了科大讯飞的研发主管赵艳军为大家答疑解惑。

语音作为目前人机交互的主要方式，大家如果使用过，应该都能举出一些例子。比如说话要靠近，发音要标准，环境要安静，不能持续对话，不能打断等。

当前的人机交互产品，在真正面对用户时，在面对复杂环境时，鲁棒性还不够好。今天的分享，我们一起探讨如何解决这些问题，不管是通过算法，还是工程，抑或产品，都是我们可以选择的途径。

大家首先要有个共识，人机交互目前所面临的问题，不是一朝一夕，一蹴而就能解决的，需要在各个方向在核心技术上不断进步。

AI 浪潮下，语音识别建模技术的演进

嘉宾介绍：陈伟，搜狗公司桌面事业部专家研究员，语音交互中心语音技术部负责人，负责搜狗语音识别、语音合成、音乐检索、声纹识别、手写识别等多项技术的研发工作，同时负责搜狗知音引擎语音技术的研发，致力于通过技术和产品的创新提升语音交互品质，为用户提供优质的语音使用体验。

语音识别建模对语音识别来说是不可或缺的一部分，因为不同的建模技术通常意味着不同的识别性能，所以这是各个语音识别团队重点优化的方向。也正是因为如此，语音识别的模型也层出不穷，其中语言模型包括了N-gram、RNNLM等，在声学模型里面又涵盖了HMM、DNN、RNN等模型...

简单来说，声学模型的任务就是描述语音的物理变化规律，而语言模型则表达了自然语言包含的语言学知识。本期硬创公开课邀请到了搜狗语音交互中心语音技术部负责人陈伟来为大家分享伴随着本轮人工智能浪潮下语音识别建模技术的演进，希望能够帮大家理清主流的识别建模脉络以及背后的思考。

老罗推荐的讯飞语音，有这些 know-how

嘉宾介绍：翟吉博，讯飞输入法产品总监。2009年以码农的身份加入科大讯飞，2010年创建讯飞输入法并担任产品总监至今，参与了讯飞输入法从0发展到4亿用户的全过程，曾经3天时间就写出了讯飞输入法的Demo，目前讯飞输入法月活跃用户超过1亿。

据说，看了锤子手机发布会的人，印象最深的就是老罗演示讯飞语音输入那一段（从视频的第100分钟开始）。很多人表示自己受到了深深的震撼。但“震撼”之余，我们也应该冷静下来，清醒地认识到语音输入的春天，在科技史上已经来过 N 次了。究竟是什么，让2016年的语音输入变得不一样，让讯飞的语音输入变得不一样？

为了解答这个问题，雷锋网请来了讯飞输入法产品总监，或者用时髦的说法“讯飞输入法之父”，为大家解解馋。

声纹识别技术的现状、局限与趋势

嘉宾介绍：陈孝良，博士，声智科技创始人，曾任中科院声学所副研究员和信息化办公室主任，中科院上海高等研究院客座，北京市公安局首届网络应急专家，主要从事声学信号处理和 GPU 深度学习算法研究工作。

现在的大部分研究都是有关动态实时检测方面的，动态检测的方法自然要利用静态检测的各种原理方法，同时也需要增加其他很多算法，比如VAD、降噪、去混响等。VAD的目的是检测是不是人的声音，降噪和去混响是排除环境干扰，这不仅对于声纹检测很中重要，对于语音识别更加重要。

VAD常用两个方法，基于能量检测和LTSD（Long-Term Spectral Divergence)，当前用的较多是LTSD，另外特征提取方面还需要：动态时间规整 (DTW)、矢量量化 (VQ)、支持向量机 (SVM)，模型方面则需要隐马尔可夫模型 (HMM)和高斯混合模型 (GMM)。