雷锋网 AI 科技评论按:2018 年 4 月 14 日-15 日,中国图象图形学学会围绕「生物特征识别」这一主题,在中科院自动化所成功举办了第四期「CSIG 图像图形学科前沿讲习班」。
生物特征识别(BIOMETRICS),是指通过计算机利用人体所固有的生理特征(指纹、虹膜、面相、DNA等)或行为特征(步态、击键习惯等)来进行个人身份鉴定的技术。
本期讲习班邀请有旷视科技首席科学家孙剑,中科院研究员孙哲南、山世光、赫然、王亮,清华副教授冯建江、徐明星,中山大学教授郑伟诗等八位学者分别就人脸、虹膜、指纹、步态、音纹等人体特征的研究现状做了详细报告。
雷锋网在本文中将对 14 日孙剑、孙哲南、赫然、冯建江的 4 场精彩报告进行介绍。15 日的精彩报告见下篇文章。
旷视科技的首席科学家、旷视研究院院长孙剑做了首场报告,在一个多小时的时间里孙剑主要介绍了他在视觉领域的一些核心工作。
孙剑博士在报告中介绍道他们计算机视觉的主要任务是理解图片,挖掘图片中的价值,例如人脸、动作、文字等。他将自己在视觉领域的核心工作分为分类检测、分割学习、区分学习,对图像层、区域层和像素层的识别。同时,他也介绍了图像识别的发展过程。
最早做图像识别的方法是建模——数学简单建模或者基于统计的建模。之后引入了学习的方法,但由于当时计算能力很弱,这种方法下的自然图像识别效果并不好。再然后就有了 Feature based 的方法,首先提取图像的各种特征进行量化,最后再做一个分类器进行识别或者特征提取。这个方法对于识别性能的提升并不高,优化很困难,所以并不被当时的研究者看好。
2006 年时出现了一些新变化,神经网络训练在语音识别领域表现比较好,然后在图像领域也取得了一些突破性的进展。但优化困难、训练错误的问题还是存在。直至 2015 年,孙剑博士团队在微软研发出 resnet,可以直接训练上百层的网络,同时极大地降低了训练错误率。孙剑博士简单概括 resnet 的原理是在系统非常深、层数比较多时进行变换,一是直接学习变换,二是学习残差信号。其中残差网络更容易优化。
以上是识别问题,孙剑博士还提到一个比较重要的问题——检测问题。伯克利的博士后罗斯在这个领域上做出了突破性工作,他使用位置分类,使用位置框将物体框出来,这个方法将检测性能提升了很多倍,目前使用广泛。罗斯为优化检测问题进一步提出将 feature 纳入学习的方法,孙建博士团队提出了 Faster-RCNN 解决该方法遇到的计算量问题。当前 Faster-RCNN 也是大家广泛使用的方法。
孙剑博士补充道在应用方面,无论是安防还是零售,跨摄像头追踪都是一项比较重要的工作。为了让他们团队的 ReID 模型正确的学习,他们引入了动态规划的方法。这种方法表现出的效果很好,甚至可以超过人。同时该方法也适用于分割问题。
孙剑博士认为研究生物识别还有一个比较重要的问题是研究如何在不同的环境中设计网络。这里他介绍的他们的另一项工作 ShuffleNet。这项工作已经被应用到手机的人脸识别和 AI 相机等功能上面。AI 相机的自动调焦、曝光等功能充分证明了 ShuffleNet 即使是在手机的计算能力下也可以表现的很好。
报告最后孙剑博士介绍自己的研究方向是认知智能,之后会着力提升模型的推广能力。
接着中科院自动化所研究员孙哲南做了关于虹膜识别的报告。
孙哲南研究员介绍了虹膜识别的概念。虹膜是黑色瞳孔和白色鼓膜之间的区域,虹膜的尺寸比较小但信息量非常的大。因为虹膜不具备基因遗传性,容易受到发育环境的影响。且虹膜在发育到一定阶段后非常稳定,所以虹膜的纹理具有很强的唯一性。
接着他介绍了虹膜识别的特殊优势,首先就是很高的唯一性,其次就是使用的广泛性。在超大规模人群中,虹膜识别具有独特的优势,因此在门禁、机场、边检口岸等有广泛的应用,目前最大的虹膜识别应用当属印度的身份证系统。印度的 UID 项目已经采集了 12 亿的虹膜特征,经过大规模的应用测试,事实证明虹膜识别精度很高,且识别速度很快。
整个虹膜识别的标准流程包括三个。第一是采集,第二是预处理,第三是分析与对比。其中采集部分需要用到光学等模块包括镜红外主动光,需要 CCD 和 CMOS,还需要人机交互模块以及视觉反馈模块。在虹膜采集过程中他们一般采用多模态的生物特征识别,包括人脸,这样可以进行多模态的身份验证。
虹膜获取之后就是预处理环节。预处理的第一步是虹膜的检测,检测主要是确定虹膜的位置,以及虹膜精确的边界。预处理的第二步是活体虹膜的检测,主要是防止虹膜造假。孙哲南团队为此提出了一个层次化的分类方法,这种方法在人种分类、活体分类以及数据库检索方面表现良好。第三步是虹膜质量评价。最后虹膜预处理还需解决虹膜纹理的非线性缩变。
预处理结束就可以进行虹膜图像特征的提取与比对。对于目标特征的提取和识别,孙哲南团队提出了质量测量特征。为了解决提取噪声问题,他们提出了定性变量的方法,提取之后的对比问题上,他们采用基于全连接的连接的方法,一举解决了深度神经网络比对速度慢的问题
在介绍完技术后,孙哲南研究员将虹膜识别的发展历史概括为如下七个阶段:
一:近距离,人不动,人配合机器
二:人不动,主动配合
三:人不动,远距离识别
四:距离远,但机器配合人
五:人移动也能识别
六:移动中主动抓拍识别
七:监控场景多摄像头抓拍识别
孙哲南研究员总结到现在使用深度学习的方法可以在分割、属性分析、识别等方面得到更加精确的结果。但是还有很多技术难题需要攻克,比如一次识别多个虹膜等。
赫然研究员在下午做了人脸图像编辑的报告。
人脸图像编辑即是通过机器对图像进行处理得到一些新的图像。这项技术目前在日常生活中拥有广泛的应用,如照片美化等。
人脸编辑涉及光谱变换、属性迁移、年龄变换、图像生成等方面的内容。理论基础涉及全光人脸分析、视觉拓扑优先、生成对抗结构、身份保持结构等。人脸采集会应用到全光函数,赫然研究员介绍道人脸编辑的目标是符合人的视觉认知,人类视觉认知涉及拓扑感知机制。
至于图片生成算法的最基本的理念则是对话生成网络,其中最基本的概念就是 GAN。这个模型分为生成式模型和判别式模型。通过生成器与判别器的博弈来生成尽量真实的图像。
在生成器生成过程中涉及到身份保持的问题,即生成男性图像不会变为女性。赫然研究员采用定距度量的方式,同时借鉴了神经学中的侧向抑制来解决该问题。
目前赫然研究员的工作开放了两个版本,一个是 LightCNN9,另一个是 LightCNN29。这两个都是通用模型,且在所有公开数据中都取得了最好的结果。
接下来赫然研究员介绍了他们研究中心的相关工作,包括超分辨率、视角旋转、上妆去妆、表情编辑、年龄变换、像素补充、跨光谱合成等。
赫然研究员总结他们的工作,首先是人脸合成,这是人脸分析里面比较重要的一部分,而人脸生成的目标是符合人的视觉认知。他们会在接下来的工作中力求越来越准确。
冯建江教授接着做了指纹识别的报告。他表示,指纹的唯一性和稳定性非常好。随着年龄的增长只会有些许变化,很适合用作识别。
首先指纹识别里面有三个模块——图像采集、特征提取和匹配。指纹采集分两种,早期的离线采集即油墨采集,现在的在线采集即光学采集等。指纹特征的提取分为两级,先提取第一级特征,在第一级特征的指引下提取第二级特征。在匹配阶段进行一个带方向的细节点匹配。
冯建江教授强调目前指纹识别的难题有低质量指纹识别率太低、大数据库下识别率和效率需要提高、理论极限不清楚、伪指纹难识别、模板不安全等。
冯建江教授着重介绍了低质量指纹的识别问题。他们采取了指纹字典的方法,用高质量指纹训练字典。训练出的字典里面有各种指纹脊线真实的方向场。在处理糟糕指纹的时候通过字典来选择候选方向场,然后对比连续性来选出质量比较好的方向场。这是全局字典。全局字典的坏处是容易在局部出现不可能图案,于是冯建江教授又提出了局部字典。先通过全局字典生成指纹,再用局部字典进行修正。
指纹采集后就是细节点的提取以及扭曲场估计,扭曲场估计用来处理同一个人不同状态指纹的差异问题。冯建江老师在扭曲场估计中一个比较重要的工作是稠密配置。
报告的最后冯建江教授表示使用深度学的方法来研究指纹识别,在低质量指纹识别上较过去的传统方法在性能上有了明显改善。
孙剑、孙哲南、赫然、冯建江的 4 场精彩报告介绍如上,敬请期待雷锋网AI 科技评论的后续报道。