“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

声纹声纹识别门禁智能门锁

作者：李勤

2017/08/07 16:11

“老婆，开门。”

如果隔壁老王不怀好意，刻意练习你的口音，相信你能感受到“京中有善口技者。会宾客大宴,于厅事之东北角施八尺屏障,口技人坐屏障中,一桌、一椅、一扇、一抚尺而已”的同等效果。

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

▲隔壁王叔叔

不过，如果你家安装的是拥有声纹识别的智能门锁，就算隔壁老王将你的声音模仿到出神入化，这扇门也是开不了的。

虽然，雷锋网编辑早就听说过声纹识别技术可以应用于智能门锁，但是不亲见，还真不能感受到它的威力。

几天前，雷锋网在清华大学的一栋大楼内，参加人工智能与信息安全论坛暨得意音通信息技术研究院成立大会时，演讲听到一半，得意音通董事长郑方突然让工作人员把一张门和相关设备搬上了演讲台。

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

这是要搞事啊！

然后，两个漂亮的小姐姐走上台，一个扮演主人，一个扮演盗窃者。

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

主人在手机 App 中录入了自己的声音与门进行绑定后，开始了第一个回合：

小姐姐主人逛街回到家，打开 App，按照弹出来的数字密码（实际生活中是随机密码，在演示过程中密码简化成了 12345678），直接念了密码，顺利开门了。

第二回合：手机丢了，被“小偷”捡到了。盗窃者用自己的声音念密码，嗯，门在意料之中地没有反应。

第三回合：盗窃者不死心，在偷手机之前，就悄悄尾随过主人，并录下了她的声音。然后播放给门“听”——就算此时采用的是固定密码，盗窃者播放了好几次主人的声音，门依然没有开。

不过，第一，前文也提到过，声音门锁此前也有落地；第二，受众接受度还有待考验，毕竟还有指纹识别和人脸识别这种更方便的识别手段。

但是，郑方和得意音通副总经理兼首席架构师肖永明介绍的以下这个场景，就让雷锋网编辑十分期待了：

“像‘给张三转1000元’一句话，马上可以做语音识别、意图理解，得出指令，进行身份确认，最后进行银行转帐。一句话就可以银行转帐或购物等，非常方便。”

肖永明还告诉雷锋网，目前他们正与汽车厂商合作，研制用于汽车的声纹锁和声纹防盗。

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

这里有一个背景需要交待：

得意音通和清华大学共同负责国家颁布所有声纹识别相关行业标准的制定，涉及行业包括公安、金融等不同行业。手机银行现在设定唯一一个生物特征识别的标准就是声纹的标准，也主要由他们起草。

其实，声纹识别作为密码验证手段之一，早就在银行服务中出现过。2015年，已有语音识别厂商与银行联合发布“声纹+人脸”p2p转账产品。

2016年，建行手机银行推出了声纹验证服务。

2015年，蚂蚁金服技术团队相关负责人称，人脸登陆有希望在年内上线，同时，蚂蚁金服研发的声纹技术也很有可能继人脸识别之后应用于登陆、转账等场景中。

后来，大家都知道，今年支付宝果真推出了“刷脸”服务。当然，还没推出声纹服务。

综合来看，这意味着，郑方提出的未来一句话可以转账这种事情还是靠谱的，而肖永明提到的汽车声纹锁，也在 2015 年时见诸报道，只是也是作为未来应用的展望领域之一。

但是，回到问题最初，虽然看上去都是酷炫的黑科技，我能相信声纹识的安全性吗？为什么上面这种智能门能认出老王是老王，你是你？为什么就算是你的声音，录音播放也无法开门？

－－下面才是技术秀－－

在雷锋网的的一次硬创公开课中，曾有专家给出了以下不同声音的声纹图，可以看到，不同的声音，呈现出的画面是迥异的：

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

▲1个月大婴儿的哭声声纹

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

▲男人的口哨声声纹

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

▲下雨打雷声声纹

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

▲人声和枪声声纹

真是不好意思，专家还给出了一张接吻声的声纹图，就说你们接吻时不要咂巴嘴，你看这小画面，是不是特别像日出时的海面：

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

还有，被视为军事机密的核潜艇声纹：

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

不同的物体发出的声音有不同的声纹，不同的人声音的声纹更是颇具奥秘，科学家的目的，就是在各种人声中找出一个人的声音特性，从而判定“你是你”。

接下来问题来了，第一，用什么方法可以判定“你是你”？

郑方告诉雷锋网，声纹识别是一类典型的模式识别问题。完成声纹特征提取后，接下来就需要选择合理的声纹建模和识别方法。

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

上述是一张声纹识别技术发展简图。

从1930年开始，科学家用最朴素的语音波形进行比对，看谁“浪”得不一样。

现在的主流方法是高斯混合模型-通用背景模型（GMM-UBM）、基于GMM-UBM发展起来的i-vector，以及深度神经网络等。

所谓高斯混合模型（GMM），就是用高斯概率密度函数（正态分布曲线）精确地量化事物，它是一个将事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。

哎呀，学渣听上去还是不懂，怎么破？

借用某网友的一个生动解释是：

GMM——道生一一生二二生三三生万物。
GMM是人们认识自然万物相生相克的规律，是大脑对自然认识后的长时间归纳与沉淀。
GMM的核心思想就是任意形态的函数形式（不管是可见的光，图像，还是抽象的多维度变量模型，比如经济金融危机模型），都可以用多个高斯函数加权混合得到。
那么什么是GMM-UBM？它是对传统GMM模型的改进，因为在实际应用中不可能采集到足够的语音以覆盖所有的声学现象，因此在背景模型（UBM）的基础上通过MAP自适应得到新说话人的GMM模型。

如果看上去实在有点复杂，你就简单地把它理解为几种不同的算法吧……

看上去简单得不能更简单的声纹识别门锁其实很“复杂”。

郑方说，上述演示的智能门锁将声纹识别和语音识别结合起来，实现了对“Who Spoke What”的识别判断，也就是说，“门”不但知道你是谁，还知道你说了什么。

他们还利用了新老技术的结合，比如，将GMM-UBM与i-vector方法结合起来，利用动态时序信息在文本提示声纹识别中得以应用，基于深度学习的声纹特征提取方法与传统动态时间规整算法结合起来，对文本进行相关声纹识别。

第二，不小心感冒了怎么办？家里的小朋友长大了几岁，声音发生了变化怎么办？开门的时候心情不好，哭着想开门怎么办？再或者，好不容易下定决心去了趟泰国，回家想开门怎么办？

“门”还能认出谁是亲生主人吗？

（年度最佳戏精，花式来开门）

人的声音还具有易变性，易受身体状况、年龄、情绪等的影响。若在环境噪音较大和混合说话人的环境下，声纹特征也是很难提取和建模的。

郑方说，他们一直以来都在努力地克服这些难题，全方位地提升声纹识别系统的鲁棒性。

“老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

鲁棒性是什么？和鲁班是亲戚吗？

NONONO

鲁棒是Robust的音译，也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。所谓“鲁棒性”，是指控制系统在一定（结构，大小）的参数摄动下，维持其它某些性能的特性。

郑方解释，科学家通常从技术和工程两个角度并行处理。

例如，对于声纹时变问题（人的声纹随时间变化），一方面从人类发音机理和人耳听觉感知出发，寻找语音信号中对时间鲁棒的信息，从中提取时变鲁棒的声纹特征；另一方面根据用户使用情况，设计了多种声纹模型自动重建与更新的框架，时刻保证声纹识别系统的稳定性与准确性。

针对情感和噪音问题，其也进行了相关研究，例如，采用特征映射与补偿、降噪自动编码器等方法在一定程度上解决了其所带来的困扰。

还有，你以为为什么在密码设定过程中，要用数字的动态验证码形式而不是随便叫一声“老婆”？

因为在声纹认证应用中使用动态数字密码形式，以及其他一些专利技术（如声纹时变鲁棒性、联合因子分析等），可以有效抵消身体状况、年龄、情绪等的影响。

你哭就哭吧 “老婆，开门”，如果隔壁老王对你的声音模仿到出神入化，记得念准数字就好。

这样还不够，为了确保不会因为上述变故发生认不出亲生主人的幺蛾子，郑方和他的科研团队想出了这些办法：

1.研究了十余种典型发音方式变化对声纹的影响，“你滴鹅几在我搜上” “老婆，开门”，如果隔壁老王对你的声音模仿到出神入化也许也在分析行列中；

2.录制了全世界规模最大、时间跨度最长的用于研究年龄变化对声纹影响的语音数据库，用于研究解决年龄对声纹的影响；

3.开展情感语音的声纹识别技术研究。比如，一个妹子说你“讨厌”，一定要根据语境和语气来分析：她到底是叫你起开，还是叫你过来。 “老婆，开门”，如果隔壁老王对你的声音模仿到出神入化

4.环境噪声、混合说话等对一般性的声纹识别影响较大，所以要通过多次测试保证识别的稳定性。

虽然已经进行了这么多研究工作，让“门”能认出你是你，隔壁老王是隔壁老王也并非易事。

郑方称，未来声纹识别有三个有意思的研究方向。

第一，如何解决声纹黑客攻击问题，我们虽然已经有了针对录音重放的检测技术，但是黑客的手段也会不断增多、水平不断提高，需要更全方位的研究黑客对声纹识别系统的攻击手段，并提前研究出有效的防攻击措施。

第二，如何构建互联网复杂环境下的统一声纹平台。当前整个互联网中充斥着各种编码格式、信道、噪音的语音，因此如何在此类复杂环境下准确高效的完成声纹识别和身份认证也是一项巨大的挑战。

第三，如何解决“鸡尾酒舞会”（多说话人）问题。在实际应用中，语音信号通常会同时夹杂着多个说话人，因此如何实现多说话人场景下的实时说话人检测也将是一大研究难点。若该问题得以解决，其将在许多领域得以应用，如公安刑侦中的快速目标说话人检测。