在去年的锤子发布会中,罗永浩现场演示了讯飞输入法后让用户意识到当下语音识别能力的强大。当然,语音识别在安静环境、常用字词、发音标准情况下已非常成熟,但在复杂环境下如远场识别、带噪声识别等情况下仍有一定的提升空间。
2016 年语音识别领域有着不小的进展,其主要体现在模型方面的突破:
Deep CNN 模型大热,百度把 Deep CNN 应用于语音识别声学建模中,将其与基于 LSTM 和 CTC 的端对端语音识别技术相结合,大大提升了语音识别能力;微软则是把 ResNet 应用于语音识别,在产业标准 Switchboard 语音识别基准测试中,实现了词错率(WER)低至 5.9% 的新突破;科大讯飞也推出了全新的深度全序列卷积神经网络 DFCNN。
与此同时,新的深度学习开源框架层出不穷,开发者做语音识别到底是用 Kaldi 这类传统框架还是用 TensorFlow 这类新型框架呢?
针对上述几大话题,雷锋网硬创公开课特邀供职于阿里巴巴最神秘的研究部门 iDST 的语音专家薛少飞博士,从声学模型和算法角度深入讲述 2016 年语音识别领域的重大突破。
薛少飞,阿里巴巴 iDST 语音识别专家,中国科学技术大学博士。现负责阿里声学模型研究与应用:包括语音识别声学建模和深度学习在业务场景中的应用。博士期间的研究方向为语音识别说话人自适应,提出基于 Speaker Code 的模型域自适应方法,在语音相关的会议和期刊上发表论文十余篇。
本期公开课内容将包括但不限于:
语音识别领域的最新进展。
详解阿里的声学模型。
Deep CNN 的原理,相比于之前的 LSTM、RNN、CTC 模型有哪些不同和优势。
介绍不同单位提出的 Deep CNN 结构,如科大讯飞提出的深度全序列卷积神经网络 DFCNN 等。
ResNet 在语音识别中的应用。
对比传统语音识别开源框架(Kaldi、CMU Sphinx、Julius)与深度学习开源框架(CNTK、TensorFlow)
活动详情
主题:解读全新声学模型与算法:2016 年语音识别的重大进步
嘉宾:薛少飞
时间:1 月 19 日周四晚上 20:00
形式:斗鱼直播+微信群与嘉宾问答互动
地址:硬创公开课 斗鱼直播间(房间号:788495)
本期雷锋网硬创公开课将会有【斗鱼直播+微信群问答】两个环节。嘉宾直播授课分享结束后,将会在微信群与群友问答互动。
为了打造高质量且细分的读者交流群,我们需要您提交一些基本资料作简单审核,而本次公开课读者群将优先 NLP 相关从业者和学生进入。
扫描下方海报上的二维码,进入雷锋网人工智能垂直微信公众号【AI 科技评论】后,可获得详细入群方式。