雷锋网AI科技评论按,继上次分享了3DV 2017国际会议首日的报告内容之后,我们在本文将继续分享大会接下来两天的内容。(查看:300名三维视觉的高手齐聚一堂,青岛论剑 | 3DV 2017)
在11日上午场的特邀报告环节,北京大学高文院士向我们展示了他们在实时在线3D重建和移动搜索方面的研究。
随着AR/VR系统、自动驾驶、UAV等领域的发展,在线视觉处理变得越来越重要,但是限于移动端诸如带宽、存储大小、电池容量等的限制,实时在线3D重建以及移动端搜索仍然有很大的挑战。首先就后一个问题,高文院士提出通过interest points匹配来进行移动搜索,这能大大地降低对硬件的要求。报告中高文院士详述了如何进行interest points的检测、特征选择、特征聚合、局部特征描述及定位等技术,同时还介绍了深度学习在这些方面的应用。针对在线3D重建,高文院士提出通过key points以及点云的方式来解决。在报告的这一部分,高文院士首先详细介绍了MPEG压缩算法应用于点云压缩的相关工作,随后介绍了他们在SLAM方面的研究,提出通过USB(Ultra Short Binary )描述、提取、匹配以及Polarimetric Multi-View Stereo的方式来解决SLAM中实时、精度以及无特征场景的问题;最后高文院士介绍了他们应用以上技术搭建的PKU IKING UAV飞行平台,他们通过这个平台使用无人机花3天时间重建了北大校园3cm-13cm精度的三维结构。
11日下午场特邀报告中,香港科技大学终身教授权龙充满激情地给我们介绍了他在人工智能、计算机视觉、3D视觉重建等方面的思考和研究。
权龙教授认为从AI的角度看,相比于语音和文字,视觉大约占所有信息的80%,所以更为重要,AI的演变主要来自于计算机视觉。权龙教授带我们简单地回顾了一下AI的发展历史,从1998年到2012年15年的时间里,AI一直没有很大的变化;但是在这沉默的15年中,计算硬件从CPU发展到了GPU有很大的提升,随之也带来AI近几年迅猛的发展。在对计算机视觉的理解上,权龙教授认为计算机视觉就是对基本视觉特征的搜索,而特征则是图像重构和识别的基础。这方面通过使用深度学习网络已经有了非常完美的效果,但是仍有许多不足有待改进。例如在识别方面,它仍然只能完成特定任务、不能像人一样理解图像。在重构方面,则还面临着诸如如何在两张图中找到相同事物、相关特征或像素等,如何去除不需要事物(例如天空)等问题。接下来,权龙教授介绍了现代三维重建管道的内容,并相应地提出了“深度三维重建”的概念——包括对传统上特征检测和匹配、来自运动的结构、多视角立体等方面的改进。此外,权龙教授还给我们展示了使用altizure.com(或者altizure.cn) 3D重建出的几个demos,效果非常惊人。
12日上午由伦敦大学的Niloy Mitra教授给我们介绍了场景建模方面的工作。
(内容由3DV 2017新闻组提供)首先,Mitra教授给我们展示了2张场景图片,其中一张是真实的,另一张是渲染的,但由于渲染得太逼真,大家大都看不出来哪个是渲染。随后Mitra教授介绍了他们是如何做到的,包括如何重建出三维模型,以及恢复材质纹理和光照的方法。首先根据图片的数量和质量分了四种情况。第一种情况,当物体图片很多质量较差时,通过训练分类器方法或模型对齐的方法,去掉不好的图片。三维模型加上纹理,经过渲染,就得到了原图的重建。第二种是物体图片多质量好的情况。动机是把真实的物体图片的纹理,转到相似的三维模型上。其中的关键问题包括几何姿态形状估计,以及光照建模。Mitra教授给我们展示了他们算法的结果,把同一纹理贴到了各种椅子模型上。第三种是图片少质量差的情况。这里用FNN来回归渲染颜色,光照合成结果要比PMM要好。第四种情况是图片少质量好的情况。有时候我们需要编辑物体的漫反射颜色或者高光强度等,但是手动操作时间慢而且复杂。Mitra教授使用CNN卷积神经网络,能够把物体的颜色分解成不同层,这样能够在不同层快速编辑颜色。另外,对于一个视角的颜色编辑,参数可以复制到不同视角,而且进行自用优化,也允许用户自己调整。Mitra教授举了个例子,比如想增强视频中龙的高光,对第一帧处理好后,他们的算法可以据此自动增强整个视频的高光。最后Mitra教授介绍了他们在大规模结构化城市重建的工作。Google的街景重建存在很多问题,包括每个视角用的纹理集合不一样,没有根据法向渲染,而且没有结构细节等。Mitra教授团队解决了这些问题。在对街道进行恢复时,首先得到许多Google的街景图片,然后计算建筑底层分区图,最后构造出结构化的街区重建。
Mitra教授给我们展示了对一个伦敦街区的重建效果视频,在重建结果里可以清楚看到窗户等结构化信息。这种城市建模可以应用于城市规划和建筑设计中,例如在设计一个新建筑时,如果有周边环境的结构化建模,那么就可以根据这些建模信息(例如窗口位置)来判断新建筑的设计是否合适。如今这种结构化重建的技术得到越来越多的关注。
12日下午场的特邀报告则有百度研究院三维视觉首席科学家杨睿刚博士介绍了百度在AI领域的布局,并详细介绍了百度无人驾驶车阿波罗以及机器人方面的研究。
(内容参考3DV 2017新闻组提供资料)据杨睿刚博士介绍,百度认为继1994年以来的PC互联网革命、2012年以来的移动互联网之后,下一个纪元将属于人工智能。所以百度在AI领域基于AI开放平台(ai.baidu.com)进行了广泛的布局,包括NLP、知识图谱、用户画像、语音、图像、视频、AR/VR等领域。随后杨睿刚博士就无人驾驶汽车阿波罗(Apollo)项目的技术架构细节进行了介绍。阿波罗项目是一个无人驾驶的开源平台,其架构由云服务平台、开放软件平台、参考硬件平台
和参考车辆平台构成。
其中环境探知技术的核心是利用传感器收集到的数据进行检测、场景理解与语义分割,最终预测和规划车辆的行驶路径。之后介绍了百度的高清晰度地图项目,这个是自动驾驶的基础。另外百度的激光雷达SLAM项目,包括特征提取、帧间匹配以及滑动窗口优化三步。
杨睿刚博士之后介绍了百度在机器人方面的工作。机器人的主要问题包括导航、地图绘制以及障碍物躲避三个方面。百度公开了其研发的机器人平台,其中的SDK实现了机器人相关的各种功能。杨睿刚博士又介绍了机器人平台的硬件传感模块、VIO、重定位、基于双目视觉的障碍物检测等内容。
最后杨睿刚博士还展示了百度在视觉其他方面的一些研究和应用,例如脸部识别方面,1:N的搜索和匹配中精度超过了99%。杨睿刚展示了一个例子,输入他自己现在的照片,度秘很轻松地从杨老师初中毕业照中找出他来,而现场的观众大多都没有分辨出来。此外,杨睿刚还展示了百度在AR方面的研究和应用,并介绍了百度开放平台——
阿波罗: http://apollo.auto
机器人视觉: http://ai.baidu.com/solution/roboticvision
继10日四场口头报告之后,在11日和12日两天又有8场口头报告。分别为:(内容由3DV 2017新闻组提供)
Graph Match: Efficient Large Scale Graph Construction for Structure from Motion
文章提出了一种类似图像匹配的方法,可有效的用于大规模运动恢复结构问题(Structure from Motion, SfM)中。不同于现有解决SFM问题中,使用词汇表(Voc)来避免蛮力搜索并快速构建匹配图的方法。本文研究人员提出的Graph Match方法,不需要在预处理阶段构建繁杂的词汇表,通过两方面的先验数据检测相似的图相对,更高效匹配图像。先验数据一方面来自与对任意两幅图像的Fisher vector即似然函数的梯度向量评估所得数据,另一方面基于对底层匹配图中顶点之间的图像距离评估所得。进过研究人员的实验证明,Graph Match方法与其他相似的图像匹配算法相比更加有效。这无疑是在解决计算机视觉大规模运动恢复结构问题方向的又一重大突破。
Fast Incremental Bundle Adjustment with Covariance Recovery
当前由2D图像进行3D重建的技术已经非常成熟,但是大多都是离线、后验且对重建后的不确定没有反馈。作者提出通过一种增强BA(Bundle Adjustment)技术来获得每次更新后的大小。这种技术不仅能够计算出最优解,而且能够计算相关的不确定性,同时能够反馈重建后的不确定性。
Cascaded Scene Flow Prediction using Semantic Segmentation
该报告带来了一种新的从一对3D相机给出的两个连续帧中同时估计被观测场景中物体的形状和运动的方法。他们的方法综合考量了分割、形状、运动、光流场等可用因素,通过优化对整体的目标函数,取得精准的语义场景流估计。通过在KITTI数据集中的验证,他们的方法确实精准而有效。
Static and Dynamic Objects Analysis as a 3D Vector Field
(运动分割结果:左上2D-SMR,右上3D-SSC,左下3D-SFC,右下OSF。红框标注了错误的分割)
Jiang Cansen等人则在中提出了一种新的场景分析方法,该方法具有三个卓著贡献:首先,可以有效地检测物体的运动;第二,提供了一种质量较高的物体运动分割方法;第三,可以较好地生成静态地图和刚性物体。他们的方法在拥挤环境中的精准机器人定位和自动驾驶等方面有着十分广阔的发展前景。
Learning Human Motion Models for Long-term Predictions
在长时间尺度上预测人的运动在各个应用领域仍然是一个很具挑战性的问题。在这个报告中,作者介绍了他们提出一个预测时空运动模型的新架构:Dropout Autoencoder LSTM (DAE-LSTM) ,这个架构能够在长时间尺度上合成较为自然的运动序列,而不会出现灾难性的漂移或退化。据作者介绍,这个模型由两部分组成:一个三层循环神经网络(用于模拟临时方面)和一个新型的自动编码器(通过随机删除训练中关节的信息,对人体骨骼的空间结构进行隐性恢复)。此外作者还提出一种新的评估方案,使用动作分类器来评估合成运动序列的质量。通过报告中的展示,可以看出这项研究相比之前的方法有更好的表现。
Real-time Full-Body Motion Capture from Video and IMUs
实时拍摄人体动作在电影娱乐行业以及生命科学领域都受到很大的关注。报告中作者介绍了他们提出的一种实时的全身运动捕捉系统,该系统只需要使用惯性测量单元(IMUs)的稀疏集加上两个(或几个)标准摄像机拍摄的图像,而不像传统的需要光学标记和专门的红外摄像机。他们还提出了一种实时优化框架(包括来自IMU、摄像机以及先前姿态模型的约束等)。报告中作者展示了他们通过视频加IMU数据的组合,重现完整的6自由度的运动,包括四肢的轴向旋转以及无漂移的全局位置。其实验表明该方法在室内、室外都有很好的表现。
Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision
作者提出了一种基于CNN方法,用单张RGB图像的2D人体姿态数据通过迁移学习生成3D人体姿态,从而构建了一个新的可用于训练和测试的数据集MPI-INF-3DHP。另外在报告中作者证明从2D姿态数据集迁移到3D会有更好的效果。这种方法在未来仍有许多值得研究之处:1、大尺度自我遮挡的姿势;2、多人情形;3、表面重建。
Efficient Deformable Shape Correspondence via Kernel Matching
在非刚性形状之间发现对应关系是计算机视觉、图形学及模式识别中的一个根本问题。报告中作者提出一种在非等距变形、拓扑变化和偏向度下匹配三维形状的方法。作者等人将形状对应的问题看作是逐点、逐对描述符集合的匹配问题,并在映射之前加入连续性,提出一个预测下降优化过程。在多个数据集上的实验证明,这种方法比之前最好的方法更好。
在短报告中,值得关注的是有四篇论文来自国内文章,分别来自香港科大、中科院自动化所、华中科大和清华大学。
Relative Camera Refinement for Accurate Dense Reconstruction
(内容由作者提供)相机几何重建往往难以达到完美,大规模三维重建的全局相机优化以及实时SLAM系统中的多传感器融合,都会使相机估计整体趋于平滑,导致局部相机极线偏移而影响点云重建质量。本文在传统三维重建流程加入了局部相机优化以及全局点云融合两个新步骤,在为局部点云重建提供准确相机参数的同时,提出了一个将局部坐标系中点云匹配到全局坐标系的快速算法。该算法在大规模SfM重建以及实时SLAM重建中都能显著地提高点云重建的质量。
Batched Incremental Structure-from-Motion
SfM(Structure-from-Motion)技术在鲁棒性和准确性方面都有所提高,但效率和可扩展性仍然是其关键挑战。本文提出了一种新颖的批量增量SfM技术,在包含两个迭代循环的统一框架中解决这些问题。内循环是轨道三角循环,其中提出了一种新颖的轨道选择方法来找到用于束调整(BA)的轨道的紧凑子集。外环是相机注册循环,其中同时添加一批相机以减小漂移风险并减少BA的运行时间。通过轨道选择和批量摄像机登记,作者发现这两个迭代循环快速收敛。实验表明,这个新的SfM系统相比当下许多最先进的SfM系统,在相机校准精度方面表现相似或更好,而对于大规模场景重建而言,它则更有效率、可靠性更高且具有可扩展性。
Performance Evaluation of 3D Correspondence Grouping Algorithms
在3D形状之间建立正确的匹配关系(也称为关联问题)是3D计算机视觉的基石。作者在论文中对几种广泛使用的3D对应分组算法进行了全面的评估。 在评估中则需要一个好的对应分组算法来从初始特征匹配中检索从而提高精度和回调率。 针对这一规则,作者在三个基准面上部署了实验,分别用于形状检索,3D对象识别和点云注册。 应用环境的多样性也会带来很多干扰,包括噪点、变化点密度、杂波、遮挡和部分重叠,这会导致综合评估的内在和不对称分布的不同比例。 基于定量的结果,作者从性能和效率的角度总结了评估算法的优缺点。
3D Object Classification via Spherical Projections
清华大学的Zhangjie Cao报告了一种分类三维物体的新方法——将三维物体投影到球形域上,利用神经网络对球形投影进行三维物体的分类。球面投影分类法结合了结合两种主流的三维分类方法的优势——即基于图片的方法和基于三维模型的方法,从而可以利用大量的图片数据集进行与训练,且球面投影法与基于体素的方法类似,能够编码完整的三维物体信息。
当然精彩不止这些,还有很多来自著名高校的报告和展示,内容非常丰富,值得随后仔细品读,例如:
Using learning of speed to stabilize scale in monocular localization and mapping(牛津大学)
SEGCloud: 3D Semantic Segmentation on Point Cloud(斯坦福大学)
Cross-modal Attribute Transfer for Rescaling 3D Models(斯坦福大学&普林斯顿大学)
Matterport3D: Learning from RGB-D Data in Indoor Environments(普林斯顿大学等)
这些报告和海报的内容雷锋网就不再一一介绍,感兴趣的可以在arXiv等网站上下载来研究。
(来自斯坦福大学的研究人员在海报展示)
最后,持续三天的3DV 2017大会在12日下午5:20正式闭幕。闭幕式上宣布了这次大会的最佳论文——
最佳学生论文:Sparsity Invariant CNNs
论文简介:对于传统的卷积网络在应用到稀疏数据时表现不佳的问题,研究人员提出了一个简单而有效的稀疏卷积层,它考虑了卷积过程中缺失数据的位置,能很好地推广到新的数据集,并且与数据稀疏程度保持不变,这无疑是机器学习与计算机视觉交叉方向的又一大创新。
最佳论文:Learning Human Motion Models for Long-term Predictions
论文简介:见前面内容
最佳论文提名:Fast Incremental Bundle Adjustment with Covariance Recovery
论文简介:见前面内容
随后还宣布了下一届大会3DV 2018将于2018年9月15日-18日在意大利的维罗纳,由维罗纳大学主办。
大会日程安排大致和这届大会相同,但在18日增加了研讨会和展览会的环节。此外,想要投递论文的研究人员需要注意了,论文投递时间为2018年6月5日。
雷锋网注:文中部分内容及照片由3DV新闻组和摄影组提供,特此感谢。
相关文章: