红外线监控视频或者是红外线闭路电视的影像所存在的一个问题就是,它难以利用这些图像来识别出人物的身份。面部在红外线成像中看起来会有很大的不同,要将红外线图像与他们正常外观的图像进行匹配是一个尚未解决的挑战。
人们的外表在红外线和可见光之间的关系是高度非线性的,红外线其趋向于使用被动传感器来检测人体所散发出来的光线,而不是人体所反射的光线。
如今,德国卡尔斯鲁厄理工学院的 Saquib Sarfraz 和 Rainer Stiefelhagen 表示,他们已经研究出了如何建立中、远程红外面部图像,与对应的可见光图像的关系。他们已经完美的教导神经网络来完成所有的工作。
面部散发红外线的方式,与它反射光线的方式完全不同。散发的红外线与空气的温度和皮肤的温度十分相关,而这些又取决于人体的活动水平,以及人体是否有发烧等情况的影响。
还有一个问题使得红外线图像难以辨认面部:可见光图像具有更高的解析度,而远红外线图像则低得多,这是由摄像机的性质而定的。总之,这些因素使得匹配红外线图像与对应的可见光图像变得很难。
但是近年来深层神经网络在应对各种复杂问题的改善上,给予了 Sarfraz 和 Stiefelhagen 启发。为什么不训练神经网络通过观察红外线版本的图像,从而识别可见光的面部?近年来,两个重要因素的结合使得神经网络变得更加强大。
一是更好地了解如何建立和调整网络来执行任务,这项技术领导了深度神经网络的创建。
二是大型注释的数据集的可用性越来越高,它们可被用来训练神经网络。
将红外线与可见光图像进行比较的数据集很难得到,不过 Sarfraz 和 Stiefelhagen 还是从圣母大学那得到了可用的数据:来自于82人的4585张照片,有分辨率为1600×1200的可见光图像,和分辨率为312 x 239的远红外图像。该数据集包含了人们面带微笑、大笑,以及自然表情的图像,并以两种不同的光线条件来捕捉每天人们的外观变化。
之后,他们将图像分割成像素为20×20的相互重叠的各部分,从而扩充数据库。最后,Sarfraz 和 Stiefelhagen 使用前41个人的图像来训练他们的神经网络,并用另外41个人的图像进行测试。
从测试结果来看,神经网络能够在短短35毫秒内,完成热成像图与其对应的可见光图像的匹配。他们表示:“匹配速度非常得快,能够以28fps的刷新率实时运行。”
但这并不意味着它已趋于完美。测试结果表明,最好的结果其精度也只是刚刚超过80%,而一对一的比较精度仅有55%。
更高的精度显然只有更大的数据集和更强大的网络才能办到,但因此其成本也会更高。不过对这项技术感兴趣的客户,很可能是那些涉及到安全相关的军事、执法机构和政府等,它们并不缺钱。
via technologyreview