第 31 届计算机视觉和模式识别大会 CVPR 2018(Conference on Computer Vision and Pattern Recognition)在 6 月 18 日至 22 日于美国盐湖城召开。雷锋网 AI 科技评论作为唯一申请媒体通道的参会媒体,对 CVPR 2018 进行了全程专题报道,为国内读者带来更多的现场一手信息。
近年来,随着深度学习的蓬勃发展,国内企业深度参与人工智能学术顶会的态势十分火热,在一个享有国际声誉的、被全球学者所认可的学术会议上发出自己独特的声音,不仅是目前工业界涉足人工智能学术研究的一种展现形式,更是国内外企业在吸引、招募研发人才的「兵家必争之地」。
CVPR 既然是人工智能计算机视觉领域最受关注的学术会议,论文的投递与收录自然是展现企业学术实力的一项「硬指标」。据了解,今年 CVPR 2018 共有 979 篇论文被主会收录,录用率约为 29%。而在众多来自工业界的论文中,成立于 2011 年的旷视科技今年在 CVPR 上共有 1 篇 spotlight 论文及 7 篇 poster 论文被主会收录。包括 ShuffleNet 移动端低功耗设备模型、语义分割的判别特征网络 DFN、优化解决密集遮挡问题的 RepLoss 、通过角点定位和区域分割检测场景文本的全新算法,以及能复原扭曲文档图像的 DocUNet 等多项技术,向与会学者们展现了他们在学术研究上的实力。
例如,判别特征网络 DFN 有效解决了语义分割的两个基本问题——类内不一致与类间无差别。新型损失函数 RepLoss 有效处理了行人检测中密集遮挡的难题。
此外,还有两篇挑战赛冠军论文——人体姿态估计(CPN)及 COCO 2017 物体检测相关赛事的算法(MegDet)解读,也同样被 CVPR 2018 收录。(雷锋网 AI 科技评论也对相关论文做了报道,见这里)
级联金字塔网络 CPN 以解决多人姿态估计问题,这一技术突破将促进人体姿态估计相关应用领域的发展,比如游戏动画、安防(异常行为检测等)和体育(裁判辅助等)。
MegDet 从 mini-batch 角度为加速深度神经网络的训练提供了一种新型检测方法,从精度和速度两个核心维度优化了物体检测技术,可以直接应用在安防、新零售和无人驾驶等领域。
在主会议的前一天晚上,旷视科技于现场召开了「盐湖城 AI 之夜」,联合 Altizure 与叠境科技举办了一场计算机视觉青年学者交流会。旷视科技首席科学家、旷视研究院院长孙剑,旷视科技西雅图研究院长王珏,香港科技大学教授权龙及上海科技大学教授、叠境科技创始人虞晶怡出席了本次交流会,同时吸引了超过 250 名参会者。
孙剑博士首先代表旷视科技欢迎与会的老师同学们,并简要介绍了旷视科技目前的发展现状及举办青年学者交流会的目的。如何既做好基础研究,也做好产品技术?孙剑博士引用了大学自动控制老师的教导:既做神,也做鬼。既要脚踏实地,又要仰望星空,一家企业的基础研究建设绝非一朝一夕所能达成,它也将为产品的落地提供扎实的技术实力。王珏博士、权龙教授和虞晶怡教授也相继上台发表讲话。现场不仅有堪称本届CVPR最为美味的点心,还有各种品类的美酒供与会者享用,更重要的是,现场还进行了激动人心的抽奖环节。
在孙剑博士看来,论文并不是工业界做研究的必然结果。以去年 7 月就已经被大家熟悉并被业界广泛使用的 ShuffleNet 为例,对于企业而言,不论是否有论文产出的需求,如何设计更为轻量级的模型结构一直是移动端应用落地的重要问题。因此,旷视科技团队以高效卷积层设计减少计算复杂度的方式,提升了内存访问效率和计算速度。在去年完成这一论文并投递 CVPR 2018 后,团队也并没有止步于此,早在 VALSE 2018 上已对 V2 版本有所披露。
但是,产业界的研究与做学术研究其实也有着共通之处,在孙剑博士的理解中都会遵循某种 pattern:先从精度入手以探寻认知边界,再进一步考虑速度和效率因素,最终达成一个超过产品实用红线的平衡点。本次旷视科技举办「盐湖城 AI 之夜」,旨在吸引更多对计算机视觉、对AI感兴趣的志同道合者齐聚一堂,并在招贤纳才上提供更多的交流途径。
在今年 CVPR 2018 上,旷视科技也分别在两项挑战赛上斩获单项双料冠军——AVA 和 WAD。旷视科技累计获得过 15 项人工智能技术评测冠军,早在 2013 年 12 月便成为了世界上首个拿到人脸识别三项世界冠军的公司,并在 2017 年 10 月成为首个拿下 COCO、Places 全球图像识别大赛三项冠军的国内公司。
今年在 CVPR workshop上已举办至第三届的 ActivityNet Challenge(ActivityNet Large-Scale Activity Recognition Challenge)旨在进一步拓展视频语义理解的边界。其中的 Task B——时空行为定位(Spatio-temporal Action Localization)依据 AVA 数据集,试图评估算法对人类行为时空信息的定位能力,其中每个标注的视频片段连续且超过 15 分钟,包含多个主体,每个主体有多个行为;在 #1 (Vision Only) 以及 #2 (Full) 两个挑战赛中,旷视科技均获得第一名。
旷视科技 Research Leader、Detection 组负责人俞刚博士介绍,这一任务将动作细化到了原子级别,需要在任务中判断人类行为主体的位置,发生了哪些动作,又与其它物体/其它人发生了哪些交互。行为时空信息的定位能力在视频分析上有着非常大的意义。
WAD(Workshop on Autonomous Driving)同样是一项由 CVPR 2018 workshop 主办的自动驾驶识别挑战赛,其中的 Task 4 ——实例视频分割(Instance-level Video Segmentation)要求参赛者在一帧之内实现对移动物体(比如汽车和行人)实例级别的分割。这一赛事基于百度提供的标注精良的大规模数据集 ApolloScape,该数据集已经开放了 14.7 万帧的像素级语义标注图像,包括感知分类和路网数据等数十万帧逐像素语义分割标注的高分辨率图像数据,以及与其对应的逐像素语义标注,并将进一步涵盖更复杂的环境、天气和交通状况,添加更多的传感器来扩充数据的多样性。按照百度 Apollo 方面的说法,ApolloScape 的标注精细度已经超过同类型的 KITTI、Cityscapes 数据集,也超过 UC Berkley 最新发布的 BDD100K 数据集。
俞刚博士和在旷视科技实习的清华大学博士生黎泽明表示,尽管旷视科技目前并无涉足自动驾驶领域,但团队本次参加自动驾驶相关的挑战赛有两个主要目的。一个是验证自身算法的能力,测试在不同应用场景下的算法通用性;另一方面则是检验自身对算法的掌握性。而本次获得双料冠军,也印证了旷视科技在技术上的积累与对算法应用于不同场景的良好掌控。
自然地,在一个聚集 6500 多名计算机视觉人才的学术顶会上,如何在现场更好地呈现自己的技术也成为了每个企业需要面临的命题。作为钻石赞助商的旷视科技也一口气展出了 10 余个 demo。正如孙剑博士所言:「做计算机视觉最好玩的就是可以做很多好看、好玩、好用的黑科技。」
除了艾瑞思 VSLAM 的仓储机器技术是唯一的演示视频,「街头霸王对打」出于场地和网络延迟的考虑也采用了视频演示的方式之外,旷视科技本次在 CVPR 2018 上的其它所有 demo 均是实时演示,以更好地与现场的与会者进行互动,而在体验的过程中,大家也能充分感受到旷视对于技术的一份实力和自信。
孙剑博士介绍道,「计算机视觉的真正威力在于线下场景的实时系统中。旷视本次带过来的一些 demo 都是组里觉得比较好玩,又具有实际意义的项目。像街头霸王这个 demo,也是两个星期前同事们测试完成的,用户可以借助肢体动作,实时控制街头霸王游戏中角色的操作。它的背后其实应用了人体检测(Human Detection)、多人姿态估计(Multi-Person Pose Estimation)和实时动作识别(Real-time Action Recognition)等多种技术,未来在零售、安防等领域都具有非常多的实际应用意义。」
艾瑞思(Ares)仓储机器人的 demo 视频演示了旷视 SLAM 机器人的技术与应用场景,在建图、定位、导航、避障等功能上,能够创建室内高精地图,拥有鲁棒精确的实时定位并能实时进行柔性行人避障,在物流、工业制造、新零售领域具有广泛应用前景。
密集场景人群检测数据集 CrowdHuman 于今年 5 月开源,为密集场景下的检测难题提供了具有价值的研究工作。据俞刚博士表示,在密集场景之下做检测是一项非常有挑战、有实际需求的工作, CrowdHuman 数据集正是为此而生。这个 benchmark 的特点是主要做行人检测,一方面,数据标注涵盖头部位置,人体的可见框和完整框,并且人框与头框之间有绑定关系;另一方面,该数据集具有一定的泛化能力,包括 Caltech、CityPerson 和 COCO 。
本次在 CVPR 上展示的 Demo 算法基于特征金字塔网络 FPN, 在 CrowdHuman 数据集上训练,使用了 Repulsion Loss 和一些其他目前还没有公开的方法(主要是为了解决 NMS 带来的瓶颈)。可以看到,在会场这种密集人群的典型场景下,系统的表现相当不错。
除了密集场景人类检测数据集 CrowdHuman外,非标准化商品智能收银和 CVPR 论文作者识别两个 demo 本次也在 CVPR 2018 上呈现。
旷视南京研究院带来的智能辅助收银解决了通常需要人工结算的非标准化商品的收银问题。以面包店为例的 demo 场景可以在确保精度的同时大幅提升结算效率。此外,该系统可轻易扩展到其它非标品收银的应用中,将成为辅助非标准化商品收银的 AI 利器。
「CVPR 作者识别」是为本次大会专门定制的 Koala 系统应用案例(Koala 是一款由旷视科技研发的智能迎宾机器人),通过使用 Google Scholar、Twitter 上的作者公开信息为底库,当人脸出现在摄像头可视范围内时,Koala 将自动检测出视频中的人脸并提取人脸特征。若被摄者是会议作者之一,姓名、H-index 以及本次会议发表的代表性论文将会展示在弹出卡片上。
在展会现场,雷锋网还看到了旷视科技带来的众多移动端 demo。像移动端实时通用物体和人体关键点检测这两个 demo,在精度与速度上都推动了产业化落地的速度,未来有期在各种场景的检测上发挥作用。
再比如目前已经应用在数十款安卓手机的人脸实时解锁技术,融合识别、活体检测、注意力判断等多项技术的这一功能可以帮助手机在安全情境下进行高效自然解锁。
而 Animoji 是一款基于深度学习的三维重建应用,能将人类表情进行实时分析,并转移到可爱的卡通形象中,可应用于实时视频聊天、表情包制作等多项功能。
此外,还有以手机背景虚化和手机人像光效技术为代表的移动端「黑科技」,目前都是北京研究院与西雅图研究院联合研发的工作。西雅图研究院负责人王珏表示,从去年一直到未来相当长一段时间,西雅图研究院的主要工作会集中在移动端,特别是手机方面。
手机所面临的人工智能相关命题主要有两方面,一个是安全,即解锁、支付等相关功能,涉及人脸识别、活体检测等功能;另一个是影像,即美颜、滤镜等图像视频处理需求,涵盖三维重建、图像分割等工作。
作为前美国 Adobe 研究院首席科学家,王珏博士在去年 5 月加入旷视科技之后,旷视也开始更多涉及影像领域的研究。手机作为一个复杂性极高的计算机系统,如何充分挖掘它的计算资源,这也对模型的性能及功耗提出了更高的要求。而在研发的过程中,王珏博士也深刻体会到旷视科技的扁平化管理在异地协作的高效率,让沟通和决策变得非常快速,这也让曾经囿于大公司冗长流程的他感到惊喜不已。
对于一个研发人员占比超过 50% 的企业,旷视科技密切关注研究体系的建设与投入。自2017 年起,从体系架构和学术合作领域向全球范围延伸。旷视科技先后在美国西雅图、南京及成都设立了研究分院,由孙剑博士统领,王珏任西雅图研究院负责人;在研究领域上,每个研究分院各有侧重和分工:如西雅图研究院注重北美市场的开拓,同时独立承担创新业务的研发;南京研究院和成都研究院则分别围绕金融智能(特别是智能零售)和智慧城市(重点关注智能仓储)业务线展开基础研发和产业落地的工作。
此外,与高校机构保持密切合作也同样成为旷视科技深化学术研究的一大途径。同样是在 2017 年开始,旷视先后与西安交通大学、香港科技大学、上海科技大学等高校建立人工智能联合实验室;并在 2017 年成立学术委员会,由图灵奖国内唯一得主姚期智院士担任首席顾问。
创业公司为何要做基础研究,在孙剑博士的理解中包括两个方面的原因:首先是自我实现,研究员如果发现了一个具有创新性的突破点,那么在发现的那一刻便已经得到了最大的满足感;其次是外部认可,在学术会议上发表论文、或是将产品落地到实际应用上,会让更多的人看到并认可你的想法,得到又一次的正向反馈。
「旷视是一家有追求的公司。这个追求包含两个方面的含义,一个是,团队的每个人都希望能做最顶尖的技术;另一个是,企业在商业化落地能脚踏实地,产品可以真正为用户带来价值。」王珏博士认为,从更长远的角度来看,旷视科技不仅希望在 AI 领域,更希望能在整个科技领域成为重要的助推者甚至是领导者。「为了人工智能终将创造的所有美好」,也是旷视科技对这一信念的最佳诠释。
「追求极致,简单可靠」,是旷视科技一直以来秉承的研究价值观。不论是理论还是算法,孙剑博士及其团队都希望能做出一些简单而实用的工作,也为吸引具有同样价值观的人才埋下注脚。「在创新的过程中,自我实现所带来的价值会不断地激励整个团队往前走,而外部的认可又会吸引更多的群体加入旷视科技,形成良性循环。」孙剑博士如是说。在本次 CVPR 2018 上,凭借 8 篇论文、10+ Demo、双料挑战赛冠军经验分享,加上同期的 CV 线下分享交流会,旷视科技向 6000 名 CVPR 2018 学者们带来了一场产学研紧密融合的盛宴,相信在未来,旷视也会持续向用户们带来更多精彩的最新落地成果,吸引更多的青年学生们加入这个务实求真的团队当中。
雷锋网 AI 科技评论报道。