3月23日,由雷锋网 & AI掘金志主办的「第二届中国人工智能安防峰会」在杭州召开。
峰会现场,松下(新加坡)研究院原副院长、澎思科技首席科学家申省梅发表演讲《视频监控场景下无约束人脸识别与图像增强》。
申省梅表示,动态视频监控场景下,人脸识别的最大技术挑战之一便是无约束人脸识别,如何通过算法实现复杂场景下的精准识别,是安防企业现阶段急需攻克的重要算法难题。
为此,申省梅在演讲中,针对复杂环境下的细分人脸识别问题,分别讲述了迁移学习、异构多模型融合、双代理对抗生成网络生成多面部姿态数据和图像增强(去除运动模糊、低光图像增加、去噪、超分别率、去抖动-去雾-去雨-去雪)等算法方法,是如何实现高精度无约束人脸识别的。
她说到,“AI在无约束人脸识别以及图像增强的算法和产品,接下来三年会有更大突破。澎思新加坡研究院将聚焦在安防垂直领域的技术研发和前沿科技探索上。”
截至目前,申省梅团队的研发成果已获得多项国际比赛冠军并在各种产品中得到广泛应用,包括十余项计算机视觉领域国际顶级竞赛冠军和300多项专利。
2019年3月,申省梅宣布加入AI安防公司澎思科技,任首席科学家、新加坡研究院院长,致力于监控与安全、智慧城市、自动驾驶、智能机器人以及AI工厂自动化等领域的相关技术研究。
自成立以来,澎思科技各行业解决方案已经成功落地全国50多个城市,服务客户超过百余个。在全国多地部署动态人脸识别点位,累计抓获在逃人员近两千名,并担任多项国家级大型活动的安保工作。
以下为申省梅的现场演讲内容,雷锋网作了不改变原意的编辑及整理:
各位来宾下午好! 我是澎思科技的申省梅,感谢雷锋网给我们提供的平台,让我们从不同的角度、不同的公司来分享自己的观点。今天我想分享的一个主题是“视频监控场景下无约束人脸识别与图像增强”。
我是西安电子科技大学电子工程系硕士毕业。在那个年代,我已经用模糊系统来搭建人工智能的智能驾驶。当时也做了一个课题,用人工智能来设计算法,在医学心电图辅助诊断等领域进行研究。
1992年我加入新加坡松下研究所,从事音视频压缩、图像处理还有图像增强等工作。后来我们专注于图像识别领域的研究工作,因此又做了很多传统的机器学习。在2009年到2012年期间,3D非常火,公司产品部门要求我们做3D,怎么从2D变3D?我们在短短一年半内,从零开始将所有3D技术提供给了公司的业务部门。
刚才很多人讲到2012年是人工智能非常重要的节点,为什么呢?大家看到,用传统的机器学习方法去提升1%的识别准确率非常困难。而在那年的ImageNet比赛里,我们却看到一次性完成10%的提升。
当时这件事对我们研究人有着很大的震撼,所以我们很快用深度学习代替机器学习,提升的效果也同样达到了10%。基于对前沿算法科技的敏感性,我们马上带领团队进入深度学习的领域。短短几年内,我们对全部传统的机器学习进行改造,对算法、技术、产品进行更新换代,也走在了世界前沿。
你说你的技术好,怎么叫好呢?其中一种方式,便是参加国际顶级竞赛,于是我们参加了十几项世界级大赛,都拿了冠军。
今年我加入了一家非常有潜力的AI初创企业澎思科技,担任首席科学家、新加坡研究院院长,这也是一个非常好的空间,让我能够发挥更大的作用,在新的平台上能够再创佳绩。
我们参加多项国际比赛,在人脸识别上拿了两个赛事的双项冠军。还有目标跟踪、行人检测、行人再识别,目标检测、图像分割、图像分类,交通异常检测、自动驾驶,智能机器人,我们都取得了不错的成绩。
可能你们会说,为什么跨度这么大。其实我们团队不仅仅是搞机器学习的,我们长期积累了很重要的知识,像几何我们一定要结合使用。所以我们的技术是全栈技术,从机器识别、深度学习到图像处理,到三维重建、几何。
High-Energy团队带着对最前沿算法和技术创新的敏感度,以及商业意识和产品思维,在大公司做了这么多年,一直在追求系统性管理和卓越团队的建设。我们建了一个非常有活力的明星团队,也为组建这样的卓越团队感到自豪。
加入澎思科技,我觉得有一个很大的空间给我发挥,我会做得更好。
我们讲到安防系统。澎思科技也是立足于软件、硬件,端到端,我们的人工智能不仅仅用到终端图像识别,也会用在前端包括拍摄端、图像处理、SoC,做到全部垂直领域的应用开发。
谈到监控视频结构化。我们用到各种各样的算法,场景一变,算法可能就不一样了。我觉得不用担心,因为我们的团队就是有全栈技术的。有人称我们团队是算法魔术师,场景需要什么,我就提供什么。在这个过程中,人脸识别还是起着非常重要的作用。
刚才讲到的系统三大部分,智能传感-拍摄端、AI图像增强SoC、AI图像识别,包括场景、事件、大数据的分析终端。我们这样做,为安防产品的增值,为澎思中期和未来安防产品形成全面和垂直的落地打下基础。
我想用这个表来做一个总结。
澎思核心算法分为三类:
前沿算法细分上,第一个是图像识别方面,我们可以看到很多的算法。
在人脸检测方面、对准、识别到一人一档、FaceID,以后走到哪里,你的脸就是你的ID;面部属性检测包括性别、年龄、人种、美颜、表情、状态、性格等;人体检测包括姿态、姿势、穿着、描述、跟踪、跨境识别/ReID,人的行为检测包括特定行为判断和预测等等。
在安防行业,很多危险行为的判断预测也很重要。一个车发生事故后逃逸,我们只要调动就近的相机就很快抓到这辆车,这对智能交通的管理非常重要。还有其他物体的识别追踪等等,还有语义的理解。
在图像增强方面,有去噪声、去模糊、去抖动、超分辨率,抗反光/抗逆光,还有去雾、去雨、去雪等等。在图像抓拍方面,有新的传感器的出现,比如AI-on-Sensor、AI图像质量评价以及AI的在控捕捉等等。
现在我们谈一下人脸识别的过去、今天以及面临的挑战。
人脸识别不是一个很新的课题,20多年前人脸识别就已经在某些产品里得到应用,用的是过去的机器学习。那个时候公开的数据集基本上都是限制性的人脸,都是近距离或者是光线受到控制的图像。今天我们看到动态监控相机下捕捉的人脸,这个跨度非常大,行人是多姿态的,并且质量没办法控制,尤其是光线,会对识别造成很大的影响。
大家注意到,训练数据级也变化了,从小数据到公开大数据、超级大数据,过去比赛的测试数据都是比对正脸的,即使今天的比赛也如此,一直到最近IJB-C出现多姿态侧脸的竞赛。
但这也不是真正代表安防场景下动态监控视频下的数据。
如果我们谈到人脸识别的迭代变化,2012年是一个分界点。在这之前,算法用的都是传统的手工特征,过去传统的机器学习,我们只能用这些。但是即使在正向的人脸识别里,比如LFW,都达不到90%。
今天的深度学习,一个小模型都可以拿到99%,所以这是两个完全不一样的概念。
2013年到2016年,我们看到特征的变化,以及有LFW数据库的出现,超级大数据以及光线不均匀多姿态的动态测试集,带动了新算法出现。我们也希望看到安防动态监视视频下真正的数据集,能够开放给大家比赛。
当然二维、三维人脸特征的识别和提取,以及人脸的防伪,都对将来FaceID这种功能提出要求。
大家知道无约束人脸的识别,面部姿态变化巨大,有很多遮挡、光线不均匀的情况,表情、像素也不一样。从很远的地方拉近后,失真严重。而且还有静态、动态等情况。
上图是Nist IJB-A比赛的图像,不同的角度、不同的光线,遮挡、戴眼镜,有些字挡住嘴巴,还有不同像素相机拍摄的图片。我们2017年3月团队代表松下参加比赛,拿到冠军奖项。同年5月,松下也发表了这个成果。
这个挑战赛也明确显示了我们的算法在模板比赛下能做出很好的成绩。
下图是算法的总结,我们用了迁移算法,也用了异构多模型的融合,和大家知道的双代理对抗生成网络。当然在此当中,数据怎么样清理、预处理,也起着重要的作用。
这是我们比赛的Leaderboard,红色框里面是我们的成绩。
你可以看到传统的人脸识别算法,以前可能还是第一名、第二名。但是在IJB-A无约束人脸测试集下面,它们的识别率仅仅是20%、50%、60%,这个变化是非常大的,技术在不断发展,性能在不断提高,我们拿到了98%。
从这个图里也可以看到,越小的error越好。尽管那个时候传统的算法都是名列前茅,比如在身份证上和护照测试级上,但是要在一个多姿态、不同光线的人脸测试集下,传统算法的性能可能会下降很大。
再谈一下大数据人脸识别。2017年7月,微软组织的一个百万名人识别大挑战。7月份公布,我们的成绩又拿到双项冠军。
在2018年2月份,松下已经把这项成果应用到产品里,并且在东京召开发布会。从下图中可以看到,我们这种跨年龄、跨姿态以及有遮挡的情况都能检测出来。而且松下的产品不光是人脸识别算法,在摄像头、图像增强方面还可以减低很多传输带宽。也许大家知道,松下的安防产品在日本是第一。
刚才谈到测试数据集,比如现在的LFW在2012年就出现,现在已经饱和了。到今天的MegaFace、微软以及IJB-A/B/C。所有的数据还是一个特点,都是基于网上收集的数据,不是动态监控下采集的数据。所以希望有一天很快到来,我们可以测试这样的数据。
刚才讲到GAN的应用,我分享一下这篇文章。
IJB中的多姿态识别,问题在于我们训练数据集很难拿到很平衡的数据。上图左边是告诉大家,这个训练集里面,左右角度的数据很多,但是角度偏一些数据就减少很大。我们用了这个GAN,右边就产生了较多在侧角度的数据。
我们也做了性能比较,大家可以看下我们自己做的b1、b2、DA-GAN的结果。b1是说我们不加任何多余的训练数据。b2是我们用之前的训练模型加额外的3D人脸合成训练数据。最后一个是我们用自己的DA-GAN来产生的一些平衡数据。我们的GAN相比之下带来明显的性能增加。所以我们GAN的工作也在NIPS-IJCAI-AAAI等学术会议上发表,也用GAN来生成不同年龄的人脸。
刚才讲到动态监控条件下捕捉的人脸,我们除了在人脸识别性能上提高外,我们也考虑别的方式。比如说在源端着手捕捉到更好的图像,还有图像增强的方法,我会在AI图像增强、SoC方面做一些分享。
第一个分享的是去除运动模糊的问题。大家都知道,左边的图像我们常常看不到细节。大家说都用HDR来恢复图像的细节,这个方法是长短曝光多次,合成光线均匀的宽动态范围图像。有个问题是什么呢?在场景当中有运动的物体出现,就没办法做到所谓的普通HDR图像,会很模糊。但是下面这张用我们的算法运动补赏,可以很清晰地看到图像的细节。我们拿到了最佳的Paper,也用在了公司的产品上面。
第二个是关于低光图像增强方法,可以看到上面有两组图像。左边黑漆漆的,但是用了图像增强方法,就可以看到细节。尤其是对人脸来说,右边的人脸就可以识别出来。传统的图像增强方法都有一些限制,今天人们结合深度学习可以做到更高的保真度。
去噪声的方法,大家都知道BN3D是很出名的去噪声方法,但是它总是根据相机的强度而做的,很难做好。我们这篇文章也获得最佳论文,我们用了深度卷积CNN加了LSTM,能够追踪到噪声的相关性,主观和客观质量结构表明,这种方法可以获得很好的图像质量。
下面来谈一下超分辨率,超分辨率不是一个很新的课题,已经很多年了,大家都是用过去传统的方法实现,也包括一些监督的和非监督的方法,这些方法很多。
我们要关心的是什么呢?我们关心的是你怎么评价它,你的评价标准是什么,跟你的应用有关系。我们说,人工智能要跟场景有关。我们比较重视的是人脸,你对人脸的识别保真度如何,这个对我们来讲是非常重要的。
我举这个例子,上图左边这个Low Resolution图像,是从很远的地方拍到的人,你非常想知道这个人是谁,拉近的时候就会出现失真。当我们用了不同的超分辨率的以后,就会看到有各种各样的表现。黄色的两幅图,对于人眼来说差不多。但是在恢复人脸ID的保真度上有很大的不同。我们评价的准则是什么?给大家看一下这个表,最终告诉我们,用深度学习给超分辨率带来的好处是,你输入的图象尺寸是12×14pixel,跟你输入图像22×24pixel,得到的精确度基本上是接近的。
另外,有人利用脸部属性,也就是局部区域来增加恢复高分辨率面部图像的真实度。
去抖动、去雾、去雨、去雪的这些方法,这些对安防产品非常有用。
我讲了很多前沿算法。在不同场景下的应用,澎思科技专注于计算机视觉和物联网技术,提供各种各样场景下垂直行业的解决方案。所以我们全栈的迁延算法是很好的配合,可以让公司做得更快更大。
澎思科技的核心实力在于全自研、全栈计算机视觉技术。不光是学习,我们有计算机的几何、三维重建方面的技术。全系列的软硬件产品、全场景的解决方案以及全方位的服务能力。
这是我们软硬件的产品,包括智慧社区的管理平台、智能人像大数据的情报平台和智慧警务大数据平台,和各种各样的硬件终端产品。我们在公安、智慧园区、智慧社区、智能制造、智能交通等行业都有应用。从成立以来,澎思科技已经成功落地在50多个城市。
总结一下,在安防实战场景下,动态视频监视技术仍然面临很大的挑战。接下来三年,AI在无约束人脸识别以及图象增强的算法和产品,会有更大的突破。
澎思新加坡研究院,专注于垂直领域技术的研发以及前沿科技探索储备,像刚才有人讲的算法孵化器,一个是场景算法,一个是算法孵化器,使得我们公司能够很快地拓展业务。谢谢大家!
由雷锋网 & AI掘金志主办的「2019中国人工智能安防峰会」,是业内极具影响力的AI安防论坛,致力于推动中国“AI-安防”落地融合与“学术-产业”的应用交叉。
延续上一届峰会的高水准、高人气,2019中国人工智能安防峰会再度站在算法、工程和产品的最前沿,引导安防行业认知再升级。这是海康、大华、华为、阿里、腾讯以及多个AI独角兽,因“AI安防”首次同台,峰会现场也聚集了海内外1000多位政企管理层和技术研究员,共同探讨2019年的AI安防智能技术部署、前沿算法应用与商业战略布局。
本次峰会共设置“城市大脑与边缘计算”、“全球顶尖算法应用”、“前端动态识别与智能视频云”、“城市AIoT与边缘智能引擎”四大议题,出席的15位演讲嘉宾分别是:
上午场:阿里巴巴华先胜、海康威视浦世亮、大华股份殷俊、地平线张永谦、深瞐科技陈瑞军、商汤科技张果琲、浪潮商用机器张琪。
下午场:香港科技大学权龙、原松下(新加坡)研究院申省梅、华为余虎、触景无限肖洪波、旷视科技安洋、千视通胡大鹏、腾讯李牧青、中科院自动化所王金桥。