雷锋网 AI 科技评论按:本文为康奈尔大学李正奇为AI科技评论所撰写的 CVPR 2018 录用论文解读稿件,未经许可不得转载。
网站地址:http://www.cs.cornell.edu/projects/bigtime/
论文地址:https://arxiv.org/abs/1804.00582
简单来说,本征图像分解(intrinsic image decomposition)就是将图像分解为反射图(reflectance)和照射图 (shading) 的乘积。我们发现过去的工作主要通过渲染,crowdsourcing 或物体染色等方式来收集标注数据集。但是这些方法都有其自身极强的局限性:物体染色的方法收集非常困难,且只能运用在物体不能运用在场景。渲染的方法无法使训练的网络泛化到真实场景图片当中。而 crowdsourcing 的方法只能得到非常稀疏的标注,且标注质量无法得到保证。
图 1:通过无标注视频训练网络从而可以产生单视图本征图像
因此,我们考虑了一种更加容易收集的用来学习本征图像的数据:网络上大量无标注的延时摄影视频。简单地说,延时摄影就是让取景照相机固定不变,但是拍摄的时间是非常长的,因此我们能够得到不同时间但是同一视角的图片序列。尽管我们的视频数据集是未标注的,但是这些视频却允许我们在训练 CNN 期间加入许多重要的先验。如图 1 所示, 我们通过网络无标注视频学习本征图像,从而我们可以用这个训练好的模型运用在单个图像上。
如图 2 所示,在训练 CNN 阶段,我们的输入是整个图像序列,而输出是相对应每一帧的反射和照射图。我们的网络架构基于 U-net,其细节请参考论文。另外,对每张图片 CNN 还同时在其内部产生一个 3D 向量来解释环境光的颜色。
图 2:系统图示和网络架构
我们的数据集名叫「BIGTIME (BT)」。我们从互联网各类视频网站收集了大量室外和室内的高质量延时摄影视频,数量超过 200 个。在我们的 BT 数据集中,我们发现室内视频非常有挑战性,因为许多室内视频只记录了非常短的时间段,并且许多视频中包含了强烈的阴影或曝光。然而,在实验环节中我们展示了基于我们框架和数据集训练的网络能够有很好的泛化能力。
4.1 能量/损失函数:
在训练阶段,我们的目标是最大化后验概率 p(R,S|I)。很容易得知这个等效于最小化能量函数 E(R,S,I)。因此我们定义 E(R,S,I) 为
4.2 图像重建损失函数:
给定输入图像序列,我们能够写出对于整个序列所有图像对的重建损失函数:
直接实现这个损失函数需要 O(m2n) 的时间复杂度,在 4.7 中我们介绍一个方法能够使得该函数的时间复杂度减少为 O(mn)。
4.3 反射率一致性损失函数:
我们同样引入了反射率一致函数来表示输出的反射图应该在整个图片序列中保持相同。
同样,这个损失函数需要 O(m2n),但是在 4.7 中我们将会展示如何减少至 O(mn)。
4.4 稠密空间-时间反射图平滑损失函数:
我们的反射图平滑损是基于图像序列中每个像素之间的相关性。我们定义为:
其中 p 和 q 代表图像序列的像素。代表双随机权重矩阵。注意的是我们考虑的是整个序列中所有像素之间的相关性,因此直接计算这个项是不可能的,因此我们需要更有效的方法。首先,注意到如果是双随机矩阵,那么我们能够简化上面的式子为:
其中 r 是整个图像序列的 log 反射率图的向量表示。如果我们假设 W 是高斯型,在双边空间中,我们能够通过构造一系列的稀疏矩阵来近似最小化公式 (7)。这个 bilateral embedding 使得我们可以将 loss 转化为二次型:
因此我们最后的将式子将时间复杂度从 O(m2n2) 减少至 O((d+1)mn)。
4.5 多尺寸照射图平滑损失函数:
我们还加入了照射图平滑函数。这个函数定义在图像的多尺度金字塔下。对于每个尺度,我们可以定义:
其中 N(p) 代表了在像素 p 的 8-联通近邻,v 代表每一条边的的权重。我们的核心思想是利用图像序列的统计信息来计算每张图的权重。其中,我们的假设是基于用图像序列的梯度的中位数来近似表示图像的反射率图梯度。详细的描述请参考我们论文。
4.6 All-pairs weighted least squares (APWLS)
在这一节中,我们提出了一个线性闭合解版本的 APWLS 来有效实现公式 4 和 5。假设每个图像 Ii 都关联于矩阵Pi和Qi,和预测Xi和Yi, 我们可以将 APWLS 转化成:
直接计算公式(14)需要 O(m2n), 但是如果将其变为公式 (15),其时间复杂度只有 O(mn).
5.1 IIW 实验:
我们用 BT 数据集训练的 CNN(不使用 IIW 训练集)直接测试到 IIW 的测试集中。数值比较在表 2 中。我们可以看到我们的模型可以与最好的优化算法和机器学习算法拥有接近甚至更加的表现。
表 2: IIW 测试集比较
表 3:SAW 测试集比较
5.2 SAW 实验:
我们也测试了我们 BT 数据集训练的网络在 SAW 测试集中的性能表现。在表 3 中我们比较了和过去其他工作在 SAW 测试集中的 Average Precision (AP)。注意所有的方法都没有使用 SAW 训练集中的数据进行训练。从表 3 中我们可以看出,我们的方法优异于过去所有的方法。
5.3 IIW 和 SAW 测试集中分解图比较:
图 3: 分解图比较
在图 3 中我们比较了我们网络输出的本征图像和最好的优化和机器学习算法输出的分解图像。从图 3 中我们可以看到即使我们不使用 IIW 数据集进行训练,我们 BT 数据集训练的网络产生的本征图像分解结果可以与其他两个算法相媲美。
5.4 MIT 本征图像数据集实验:
最后,我们在 MIT 本征图像数据集中验证我们框架的有效性。在训练我们的网络过程中,我们没有直接回归 ground truth,相反,我们在 MIT 提供的图像序列上训练我们的网络。
表 4: MIT 测试集性能比较
我们比较了我们的方法和其他监督学习方法。这些过去的工作都用到了训练集的 ground truth 来训练模型。相反,我们只利用了数据集提供的图像序列来训练网络。比较结果显示在表 4 中。我们可以看出我们的非监督学习方法能够媲美甚至优于过去以 CNN 为基础的监督学习算法。
在我们这次的工作中,我们提出了一个新的非监督学习方法通过网络上的延时摄影视频来学习本征图像分解。我们训练的网络可以在多个数据集中表现出很强的泛化能力,展示出了通过大量无标签网络视频来学习本征图像的巨大潜力。