雷锋网 AI 科技评论按:12 月 18 日,腾讯 AI Lab 宣布,其研发的人脸算法 Face R-FCN 和 Face CNN 分别在人脸检测平台 WIDER FACE 与人脸识别平台 MegaFace 的多项测评中斩获冠军。获悉这一消息后,雷锋网 AI 科技评论与腾讯 AI Lab 计算机视觉中心总监刘威博士进行了交流。
Face R-FCN 算法为针对人脸检测问题而设计,而 Face CNN 则着眼于解决人脸识别问题。据刘威博士介绍,目前 Face R-FCN 的部分技术细节已在 arXiv 上公布,Face CNN 的技术细节解读也将在未来呈现。
Face R-FCN 论文地址:https://arxiv.org/abs/1709.05256
据雷锋网 AI 科技评论了解,Face R-CNN 与 Face R-FCN 分别在今年的 6 月与 9 月发布在 arXiv 平台上。据刘威博士介绍,Face R-CNN 是腾讯 AI Lab 的早期研究版本,目前升级的更强版本是 Face R-FCN。
Face R-FCN 主要是基于 R-FCN(基于区域的全卷积网络)框架来解决人脸检测问题。「在 R-FCN 框架的基础上,我们采用 ResNet(残差网络)作为基础网络,结合了多尺度训练和测试、Online Hard Example Mining 等改进,并针对人脸特性设计了位置敏感平均池化的方法,提升了检测准确率。」
WIDER FACE 是由香港中文大学公开的人脸检测基准数据集,包含训练集、验证集和测试集。共包含 3.2 万张图片,39.3 万个手工标注人脸,标注人脸在尺寸、姿态、角度和遮挡等有较大程度的变化。
腾讯 AI Lab 的 Face R-FCN 算法在 WIDER FACE 测试平台中使用官方指定训练集,在简单、中等及困难模式(Easy、Medium、Hard)的全部三个测试子集中均取得第一。
WIDER FACE 人脸图像示例,绿框为腾讯 AI Lab 算法检测结果,红框为官方标注结果。
腾讯 AI Lab 提供
「和同类算法相比,Face R-FCN 在检测难度很大的人脸样本时更有优势。从 WIDER FACE 的测试结果也可看出,随着测试难度的增加, 从 Easy set 到 Medium set 到 Hard set,我们的算法的领先优势在扩大。」刘威博士如是告诉雷锋网 AI 科技评论。
WIDER FACE 验证集结果与测试集结果
「针对 Face CNN,腾讯 AI Lab 在网络模型结构、损失函数、训练样本挖掘上都进行了创新性改进;和同类算法相比,Face CNN 的优势在于能比较好地适应不同的人脸应用场景,比如常规识别评测、跨年龄识别评测、1:N 辨识(Face Identification)、1:1 验证(Face Verification)等。」刘威博士向雷锋网 AI 科技评论介绍道。
Face CNN 的技术实力在人脸识别评测平台 MegaFace 的 Challenge 2(MF2)上得到了验证。MegaFace 是由美国华盛顿大学计算机科学与工程实验室发布并维护的一套公开人脸数据集,资料集包含一百万张图片,包含 690,000 个人脸。
MegaFace 包括两个不同的 Challenge,Challenge 1(MF1)与 Challenge 2(MF2)。与 MF1 可采用任何外部不限量的人脸数据来训练参赛算法不同的是,MF2 要求使用官方固定训练集 FaceScrub 和 FGNET 测试集进行训练,在给定数据集的情况下,算法的测试结果更具客观性。
系统需在百万规模人脸数据下,评定两大指标的准确率,包括:
1:N 辨识,即 Face Identification,需要从 N 个人数据库中找到 1 个目标人脸;
1:1 验证,即 Face Verification,比对给定的两张人脸是否为同一个身份。
MF2 分常规识别与跨年龄识别两类任务,又分别进行两大指标准确率的测试,即四项小任务。
从 MegaFace 的官网中,雷锋网 AI 科技评论了解到,在 MF2 常规识别任务的辨识准确率(1:N)、MF2 的常规识别任务的验证准确率(1:1)、MF2 的跨年龄识别任务的辨识准确率(1:N)、MF2 的跨年龄任务的验证准确率(1:1)四项任务中,腾讯 AI Lab 的 Face CNN 均获得了第一名的优秀成绩。
MF2 详细评测结果参阅:http://megaface.cs.washington.edu/results/facescrub_challenge2.html
刘威博士肯定了标准评测数据集在人脸技术发展过程中的地位。「在人脸技术发展过程中,标准评测数据集的重要性不言而喻。参与标准数据集测试时,研究人员可在固定标准下,评估算法性能,并以此为方向推动技术不断发展。」
但在人脸识别与人脸检测平台上斩获冠军,对于腾讯 AI Lab 只是研究工作的一部分。刘威博士告诉雷锋网 AI 科技评论,目前腾讯 AI Lab 计算机视觉中心的工作重点是让机器理解真实的视觉世界,
「我们的研究重点包括图像或视频的编辑、生成、分析和理解,物体或人脸的检测、跟踪和识别,以及文字识别、3D 视觉、SLAM 和基于视觉的强化学习等。」
而在基础和前沿研究方向上,CV 团队聚焦中高层视觉,尤其视频等可视结构数据的深度理解,同时也在重要的交叉领域发力,如视觉+NLP、视觉+信息检索等。刘威博士表示,「腾讯 AI Lab 正在进行或计划中的研究项目兼具了挑战性和趣味性,包括超大规模图像分类、视频编辑与生成、时序数据建模和增强现实,这些项目吸引了哥伦比亚和清华等海内外知名大学的优秀实习生参与。」
而与此同时,刘威博士也向雷锋网 AI 科技评论表示,腾讯秉承「与学界和行业『共享 AI』成果」的发展之路,以迅速将研究成果推进到应用落地阶段,缩短迭代时间。
人脸技术目前已接入包括政务、金融、安防在内的腾讯各类业务场景,据腾讯 AI Lab 介绍,每日技术调用量已超过 6 亿次。人脸技术的典型应用场景在互联网+公众服务领域,用户可以通过人脸验证,完成身份自动鉴别的「刷脸办事」。
刘威博士也向雷锋网 AI 科技评论表示介绍了腾讯 AI Lab 的其它应用内容,「除了人脸技术外,以图像和视频实时滤镜和肢体动作追踪为代表的技术在研究出来后,也马上有了应用场景,是很好的例证。」
在 SIGGRAPH ASIA 2016 的 exhibitor talk 中,腾讯 AI Lab 展示了实时视频风格转换的相关研究成果,即通过训练一个深度前向神经网络学习了如何将视频的每一帧都转换成指定的艺术风格。系统除了学习如何将一帧视频艺术化外,还学会了如何保持艺术化之后的帧间一致性。在应用层面,腾讯 AI Lab 在现场展示了多部不同电影添加视频艺术滤镜的效果。
via ai.tencent
而最近手机 QQ 刚刚上线的「高能舞室」功能,也是腾讯 AI Lab 研发的「肢体动作追踪」在移动端的率先落地。系统通过对人体 22 个关键点的实时和高精度检测,它会将人体动作与预测的动作进行比对,再进行打分。据悉,这也是与高通在AI领域的首次合作。通过高通骁龙神经处理引擎(Snapdragon Neural Processing Engine, SNPE)SDK,让 QQ「高能舞室」应用可以直接在手机上,而不需要在云端运行 QQ 相应的 AI 神经网络,以提升识别效率与运行时间。
via 腾讯
成立于 2016 年 4 月的腾讯 AI Lab 在一年多的时间内,秉承「Make AI Everywhere」的愿景,专注于 AI 基础研究与落地应用的结合,研究方向包括机器学习、计算机视觉、语音识别和自然语言处理四大方向,技术应用聚焦于内容、游戏、社交和平台工具型 AI 四个方向。据腾讯 AI Lab 官方介绍,目前研究工作已落地到微信、QQ、天天快报和 QQ 音乐等上百个腾讯产品。在行业落地上,围棋 AI「绝艺」及 AI+医疗项目「腾讯觅影」等项目取得了突破性进展。
而针对腾讯 AI Lab 的年度系列回顾总结,雷锋网将在春节前后为读者呈现,敬请期待。