过去的一年,要说人工智能在面向消费者的领域有哪些明星产品,销量近千万的亚马逊Echo总是一个绕不开的存在。
提及Echo成功的原因,声智科技合伙人李智勇告诉雷锋网,Amazon Echo这产品根本没做任何的功能上的创新,听歌、看新闻、设闹钟、说笑话、控制家电等所有东西都可以在手机上找到替代品,它唯一的变化只是把语音交互的方式从近场升级为远场,并把精度和速度打磨到非常优秀的程度。
只是这么一点点变化,似乎就要创造一个无比巨大的行业。因为Echo之后,全球科技巨头纷纷推出自己的智能音箱,但乱花渐欲迷人眼之际,估计广大技术爱好者要和雷锋网编辑有同样的疑问:远场语音交互技术如此有威力,从哪里可以学的到呢?
不久前,雷锋网 mooc.ai 已推出了远场语音交互技术的实战特训班,由语音交互专家、声智科技 CTO 冯大航主讲,冯大航老师的介绍如下:
冯大航
冯大航:2007年开始从事语音信号处理,麦克风阵列信号处理,语音识别方向研究,在语音交互领域已经积累10年经验。2007年毕业于中国科学技术大学电子信息工程系,2007-2012年在中国科学院声学研究所读博士,博士期间在阵列信号处理方向发表多篇SCI、EI论文,2012年获得中国科学院院长奖学金,毕业后在中国科学院声学研究所任助理研究员,工作期间获得国家自然科学基金项目,同时参与了多个国家重大项目;2015年曾任职于云知声负责远场语音识别前端算法,2016年5月联合创建声智科技。
该课程共分四章24个课时,主要讲解语音信号处理,麦克风阵列信号处理,语音识别中的关键技术及实用技巧,通过该课程的学习,可以了解目前AI设备(智能音响、机器人、车载设备等)中语音交互的关键技术,根据一些开源软件及硬件设备可以搭建一套远场语音识别系统,同时语音信号处理中的回声消除、噪声抑制技术也是VOIP的核心,广泛应用于各类直播平台、即时通讯等应用软件中。
除了在课程中深度的剖析和讲解外,冯老师还在课后的评论区和同学们互动交流,探讨技术细节。
现将部分探讨精选如下:
问题一:
学生:冯老师好!您讲到Echo是实时估计说话人方向的,这个比较难,那么Echo是怎样做到的呢?
冯大航:其实实时估计说话人的方向技术上难度不大,可以利用语音端点检测检测到语音,然后将这段语音分成多段,每段进行DOA估计,最后可以将这些DOA估计结果进行卡尔曼滤波,就可以实现对说话人的跟踪。但实际中,情况比较复杂,比如旁边可能突然有人说话,那doa估计可能就会算错了,现实当中主要是这种方法鲁棒性不够好,你实际使用echo的时候就会发现,如果旁边放一个干扰源,它的doa也经常会出错。叮咚音响,已经我们的音响采取的策略就是只计算一次说话人的方向,增加鲁棒性。
问题二:
学生:请问实际工程中麦克阵列和单路回声消除有哪些差异?麦克风阵列回声消除的优势有哪些?
冯大航:麦克风阵列回声消除有很多种做法,是先每一路做回声消除,然后再做波束形成,还是先做波束形成,再做回声消除,再或者是先做一部分回声消除,做波束形成,做回声消除。取决于你系统的计算能力,以及波束形成采用什么结构,这里很难给出一个定性的结论。一般来说先做回声消除,再做波束形成效果最好,但计算量最大。
麦克风阵列对回声消除的作用主要体现在后面的波束形成,去混响等算法上,因为波束形成也会对回声有抑制作用。所以总体上看麦克风阵列的回声消除效果要好于单麦克的回声消除。
问题三:
学生:在真实环境中,不可避免地会出现多源、混响等情况。请问如何判断MUSIC算法中360°beamscan DOA得到峰值的真实性。比如在单源+混响的情况下,麦克风阵列会收到来自不同方向的源和混响信号,MUSIC的声源数量参数是否可以取大些,如4。这样会同时估计到信源方向和混响方向而不影响算法的鲁棒性。
冯大航:这个涉及信源数估计问题,这个问题学术上研究很多,比如最简单的判断自相关矩阵的特征值大小,但实际中效果都不好。MUSIC信源数取的大,会导致有些信息没用上,比如原本有3个噪声向量,你只取了一个,效果肯定不如用3个计算的好。所以music算法最大的问题是需要预先对信源数估计,而信源数估计又很难,是一个死循环。算法带来好处的同时,一定有坏处,就看你使用的场景能否忍受这个坏处。
类似这样学员与老师的问答还有很多,作为学员福利,在7月1日上午10点,雷锋网特邀请冯大航老师对于课程内容进行直播答疑。为了让更多对语音、声学感兴趣的童鞋参与进来,我们放出部分参与名额,但为了保证答疑质量,一旦人数达到限制,将关闭报名入口。
本直播直播地址为:http://www.mooc.ai/course/109,可免费观看,请同学们设好闹钟,提前准备好问题前排就坐。也可以加助教微信:mooccai,自报家门和来意。