作者丨曹颖、Thomas Tsao
编辑丨陈彩娴
我们所生活的世界由物体、地面和天空组成。视觉感知需要解决两个基本的问题:
(1)将视觉输入分割成离散的单元;
(2)考虑可能由于物体变形、视角变化和动态遮挡导致的外观变化,跟踪分割出的单元。当下的计算机视觉分割和跟踪方法都需要进行学习。
那么,机器可以无需学习就分割出对象并进行跟踪吗?
本文作者指出,从环境表面反射的光线的数学结构产生了恒常性表面的自然表征,这种表征为分割和跟踪任务提供了一种解决方案。
本文描述了如何根据连续的视觉输入生成这种表面的表征。对于一些合成的背景杂乱的视频,尽管物体出现了严重的外观变化,本文提出的方法可以在无需学习的情况下分割出物体,并持续跟踪它们。
灵长类动物的视觉系统可以将由视网膜接收的图像流组成的视觉输入转换为对稳定、离散物体的感知信号,而人们尚未充分研究清楚这种感知组织过程。从传统上说,这一过程被分解为两个独立的问题:(1)分割问题。将某张图像中的视觉像素分组为不同的物体(2)跟踪问题。识别出不同图像中外观产生变化的物体。
这两个问题都极具挑战性。如图 1 所示,分割任务是非常困难的。因为距离较远、颜色不同、纹理不一的像素可能属于同一个物体,而相邻的、具有相同颜色/纹理的像素可能属于不同的物体(图 1A)。而对于跟踪任务而言,由于物体变形、视角变化或动态遮挡,同一物体的外观可能发生剧烈变化(图 1B)。
传统的计算机视觉研究通常通过基于图像强度、颜色和纹理的区域增长方法来解决分割问题,这些方法依赖于从单幅图像中提取的属性。
近年来的大多数图像分割工作的则采用了基于深度学习的方法。以往的工作主要通过概率化的动力学建模或「基于检测的跟踪」来解决跟踪任务,最近的方法则结合了深度学习技术。
虽然早期用于分割和跟踪的学习方法是有监督的,需要大型有标签的训练集,但最近许多无监督方法涌现了出来。本文从计算的角度探索了分割和持续跟踪目标能力的起源,表明在原则上可以在不学习、有监督或无监督的情况下解决该问题。
作为对基于图像的分割和跟踪方法的补充,基于几何的方法将视觉视为一个逆向的图形学问题。在该框架下,视觉系统通过将三维图形模型反转,根据图像推理出三维表面。然而,由于在透视投射到视网膜上的过程中失去了深度的维度,因此这种反向推理过程不完全受约束,这意味着根据经验广泛学习是必要的。
本文证明了,如果输入某个场景的图像序列,其中观察者或物体都在移动,根据图像推理三维曲面的问题实际上是完全受限的。本文通过数学分析和计算实验证明,只要满足以下两个自然的假设:
(1)世界是由物体组成的,即具有局部恒定光照的平滑纹理表面的离散集合
(2)动物从移动的观察点观察世界,就可以在不需要学习的情况下,实现对环境中每个离散表面的分割和持续跟踪。
本文的计算实验仅限于合成视频,但本文提出的方法也适用于高质量的图像,可以很容易地扩展到自然条件下。
本文本质上从数学上实现了心理学家 J. J. Gibson 的「视觉感知的生态学方法」。Gibson 指出,理解人类视觉的关键是在 3D 环境和人眼之间插入一个「环境光学阵列场」。
如图 1C 所示,空间中一点的环境光学阵列由来自环境中被照亮的表面通过该点的光线的 2D 分布组成。环境光学阵列场是由一套被 Gibson 称为「生态光学」的定律支配的,这些定律可以解释视觉感知的大部分现象:「与其完全从神经系统的角度解释感知,我希望在一定程度上从光本身进行解释。生态光学就是一种解释的方式」。在 Gibson 提出视觉生态光学方法后的几十年里,这个重要的概念在计算机视觉界引起了越来越多的关注。
本文用精确的数学术语表述了 Gibson 的理论并实现了计算。数学分析表明,物体表面信息可以通过两种拓扑结构(立体微分同胚映射的伪变换群和无穷小增长边界集冗余地表示为光学阵列场。从生态光学的角度来看,视觉是一个完全受约束的适定性问题。环境光学阵列场的视觉环境中包含将物体感知为离散的、持久的单元的完整信息。
与味觉和触觉不同,视觉使动物无需直接接触就能感受环境。在视觉中,远端刺激(环境中的物体)和近端刺激(视网膜上的光)之间的链接是环境表面反射的光,在每个观察点上形成了 Gibson 提出的「光学阵列」。
图 2:目标分割与跟踪的拓扑解决方案
给定一个包含多个物体的复杂场景(图 2A),分割任务旨在识别物体边界(boundary)。我们可以从图像中所有边缘(edge)的图开始(图 2B)开始进行分割,物体的边界应该是这些边缘的子集。关键的难点在于,有些边缘是「纹理边缘」(如图 2A中贴纸的边缘),而有些边缘是真正的物体边缘(如图 2A 中苹果的边)。本文证明了场景的相近视角之间转换的信息可以用来区分这两种类型的边缘。
具体而言,如果一个空间区域包含一个表面的图块,那么从附近的观测点获取的两个图块彼此将是微分同胚的。也就是说,人们可以通过像拉伸和弯曲橡胶片一样来配准它们(图 2C)。
本文展示了如何通过迭代的优化方案,用一组局部 Gabor 感受野动态地进行仿射变换,消除两个图块之间的变换(见图 5)来计算这种微分同胚映射。然而,如果一个图块包含一个物体边缘,那么在边缘的一侧,图块将是微分胚性的,而在另一侧则不是。因为从一个角度看,背景的一部分是可见的,而从另一个角度看则是不可见的,这导致了微分同胚映射的「单侧失效」(图 2D)。
在视觉心理物理学中,这种现象被称为「达芬奇立体视觉」。这提供了一种有效的方法来区分纹理边缘和真实的物体边缘:对于每个边缘元素,确定边缘每侧的微分同胚映射。物体的边界仅在一侧伴随微分同胚映射。此外,我们可以将其视为拥有边缘的一侧(图 2E)。通过在整个图像中重复这个过程,我们可以将一个边缘图转换为一个真正有信息量的物体边界图(图 2F)。
一旦以这种表面表征框架对分割任务建模,计算机视觉中最困难的问题之一——持续目标跟踪,就变得十分简单了。
如图 2G 所示, 我们可以通过查看这两个图图块是否通过一系列重叠的表面图块(如图 2H 和 2I)相连来判断两个离散的图块是否属于同一个不变的表面。因此,在表面表征框架中,一个不变的物体构成了表面图块的等价类,其中等价关系由表面重叠定义。
重要的是,解决分割的相同的微分同胚映射机制让我们可以计算这些表面重叠,从而连接(即跟踪)同一曲面随时间变化的不同视图。即使一个表面的外观经历了剧烈的变形(例如,一匹马的前视图和后视图),只要只要连续的视图之间存在局部微分同胚关系,跟踪过程就可以很容易地将视图连接起来。
在这里,本文从数学上表达生态光学的规律。我们表明,用于解决分割和不变性问题的数据,以及更普遍地用于获得视觉表表征的数据,在动物的近端视觉环境中是充分且冗余的。
分割和不变性问题可以被形式化定义为:确定从一系列观测点看到的两个图块是否属于同一个物理表面。在单视图场景下,上述定义对应于分割问题。在一段时间内连续的一系列视图的场景下,这对应于跟踪问题。该问题依赖于一个关键属性——表面连续性,这是一种拓扑性质,而不是基于图像的性质,利用从不同角度拍摄的成对图像计算,而不是从单个图像中计算而来。
本文引入两个拓扑空间:一个用于描述环境中的 3D 物体(远端刺激),另一个用于描述从这些物体反射并汇聚在环境中的每个观测点的光线(近端刺激)。本文研究了这两个空间之间的映射关系,证明了前一个空间中物体的拓扑组织信息在后一个空间中准确地表征。换而言之,对不变的物体的视觉感知是可能的。
图 3:通过立体微分同胚映射对局部和全局的表面近邻性进行编码。
如图 3 所示,局部表面连续性的性质是根据「从不同视角拍摄的一对图像之间存在/不存在一种特定类型的映射来指定的,即「立体微分同胚映射」。这为拓扑图像分割提供了关键要点(见图 3 A-C)。如果两个曲面表示都包含由立体微分同胚映射相关的部分,则它们是同一物体的两个表面表示,这种全局拓扑特性提供了不变性的关键要点(见图 3D)。
图 3 的具体解释如下:
(A)将点 P 投影到极坐标系中的射线空间 S(O) 中,r=(θ,φ)。
(B)远端欧氏空间的表面邻近性在近端视觉空间中被准确编码。如果一个点的邻域是环境中一个相邻局部表面图块(例如,包含字母「A」的表面图块)的透视投影,则可以根据该邻域找到一个到相邻射线空间的立体微分同胚映射。相交的射线对对应于转换空间 S(O_1) × S(O_2) 中的立体光线对。
(C)远端欧氏空间中的表面离散性在近端视觉空间中被准确地编码。我们无法为包含遮挡轮廓的点的射线空间中的邻域找到与相邻的射线空间的微分同胚映射。射线空间中 O_1 处的这样轮廓段用垂直的品红短线标记;它是一个在透视投影下折叠的物体的射线空间图像,构成了一个无穷小的增长。这是因为,随着观测点在所有者一侧进行任何变化,(例如,移动到 O_2),轮廓都会增长。也就是说,边界两侧的图像(两条深绿色的垂直线)现在是正则的,没有交点。
如下图所示,遮挡轮廓的所有者由增长部分另一侧确定。由于射线空间中所有不在遮挡轮廓中的点都具有表示局部表面图块的邻域,遮挡轮廓提供了环境表面的紧凑而完整的表示。
(D)远端欧氏空间的表面持久性在近端视觉空间中被准确编码。在 O_1 和 O_4 处的射线空间中的图块 A 和 C 代表同一相邻环境表面的某些部分,因为它们由重叠的立体邻域链连接,相当于 CC(Ω)。
其中,O_1 处的图块 A 和 O_2 处的图块 A 是 MS(Ω) 等价的。O_2 处的图块 B 和 O_3 处的图块 B,、O_3 处的图块 C 和O_4 处的图块 C 也是等价的。O_2 处的图块 A 和 O_2 处的图块 B 是重叠的,O_3 处的图块 B 和 O_3 处的图块 C 也是重叠的。
因此,在 O_1 处包含图块 A 的 MS(Ω)-等价类与在 O_3 处包含图像补丁 B 的 MS(Ω)-等价类相关联,后者可以进一步与在 O_4 处包含图块 C 的 MS(Ω)-等价类相连。因此,O_1处的图块 A 与 O_4 处的图块 C 是 CC(Ω) 等价的。该方案使同一全局表面的截然不同的视图(例如,图1 B 中马的三个视图)可以被视为属于同一全局持久性表面。
正如几何光学描述了物体上的点是如何通过光映射为图像平面上的点一样,生态光学从拓扑上描述了三维欧氏空间中物体表面的重要结构(例如,连续性、空间分隔、部分重叠等性质)如何通过光映射为视觉空间中光线的拓扑结构:常规组件、透视映射、遮挡轮廓、增加/删除遮挡轮廓周围的部分、MS(Ω) 等价类和 CC(Ω) 等价类。
生态光学理论描述了动物视觉环境的物理事实,该理论并不依赖于视觉系统的存在。本文展示了一个在环境中移动的视觉系统如何通过计算利用视觉空间中光线的拓扑结构来感知视觉环境的拓扑,即感知离散的、不变的单元。
分割和不变目标跟踪的计算方法
给定某个场景的视频帧的序列,其中观测者和物体都在移动,我们需要根据表面连续性分割每一帧,为不同帧中统一物体的表面组件赋予同样的标签。
图 4:拓扑学分割和跟踪的计算实现。
我们首先使用标准的边缘检测算法找到强度边缘,例如,Canny边缘检测器(图4A)。由于空间上分隔开来的表面之间的边界图像可能具有不同的强度,我们假设在自然的观测条件下,遮挡的轮廓(occluding contour)主要与强度边缘相关。接着,我们随机选择一组已识别边缘的邻域进行进一步的拓扑分析。这些邻域是从连续的帧中成对提取的(图 4B)。
接下来,关键的步骤是,基于在分段边缘段每侧分别执行的连续帧之间的微分同胚映射检测(图 4 B-D),将边缘段分类为纹理边缘或遮挡边缘,然后识别每个遮挡边缘的所有者。根据数学理论,在纹理边缘处,两侧计算的微分同胚映射是相同的;而在物体边缘处,拥有该边缘的邻域与下一帧的中的该邻域是微分同胚的,但另一侧的邻域则不是微分同胚的。
将纹理边缘与物体边缘区分开后,就可以识别出物体边缘的所有者,并计算出连续帧的每个邻域上的微分同胚性。这样一来,我们就可以进行物体分割和跟踪了。
我们首先计算一个「超分割」映射,该映射为每个以轮廓为边界的组件分配不同的标签(图 4D 左)。然后,为了计算分割图,我们简单地通过将任何纯纹理区域(即毗邻纹理边缘但从来不拥有单侧区域)的标签重新分配为其相邻的双侧所有者的标签来擦除纹理边缘(图 4D 中)。
完成分割后,计算物体跟踪图的最后一步就变得很简单了:确定持久性表面——包含图块的物体分割图组件,与前一帧的单侧所有者或纯纹理微分同胚(图 4D 中),并为每个持久性表面分配与前一帧(图 4D 右)相同的标签。注意,在这里,我们再次使用了在分割阶段执行的微分同胚检测。
从广义上讲,本文提出的场景分割和跟踪技术包含以下三组主要的步骤:
(1)边缘提取和超分割图的计算
(2)微分同胚映射关联的计算
(3)利用关联信息,为超分割图的组件重新分配标签
微分同胚映射的计算
图 5:计算微分同胚映射
对微分同胚映射的计算过程如图 5 所示:
(A)为了计算以某一点为中心的两个图块之间的微分同胚映射,我们将两个图块投影到一组 Gabor 感受野 g_i(i = 1,…,18) 上,涉及 6 个方向和 3 个空间频率。(图 A 左上)由于透视投影的几何约束和亮度恒定约束,我们通过放射变换 将两个图块在局部关联起来,对应于全微分同胚的泰勒级数展开中的第一项,从而得到了能量函数 E_i 的方程。为了计算该变换,我们求解 使 E = 0 的参数。(图 A 右上)我们用牛顿法求解方程,需要计算导数矩阵 E_0。(图 A 下)我们需要反过来计算 Gabor 感受野对仿射变换的每个参数的导数,将其称为「Lie germ 感受野」。
(B)一对图像帧,左侧绿色框中的部分以某个纹理轮廓上的点为中心;右侧紫色框中的部分以遮挡轮廓上的点为中心,对应于图 4C 所示的两个相同的邻域。为了给仿射变换计算提供足够的支持,我们将图块的中心向左或向右移动。(左下)分别计算出在 i 帧和 i+1 帧之间计算的左右邻域的仿射变换 T_1 和 T_2 的六个参数。这六个参数相等,意味着分隔两个邻域的轮廓是纹理轮廓。(右下)在不同的边缘点上进行相同的计算,得到左右邻域的仿射变换 T_3 和 T_4 。这六个参数不相等,这意味着分隔两个邻域的轮廓是一个遮挡轮廓。
(C)在遮挡轮廓处,前景侧拥有轮廓。为了确定轮廓所有者,我们计算仿射变换 T3 和 T4。第 i 帧图像中图块的左右部分如第 1 列所示,变换后的图块的左右不分如第 2 列所示。第 i+1 帧中,图块的左右部分如第 3 列所示。轮廓所有者的第 2 列和第 3 列应该相同,被遮挡的一边的第 2 列和第 3 列则对应于导致差异的增长/删除的边界。第四列底部的过程显示了轮廓线右侧的删除边界,意味着轮廓的所有者在左侧。第 4 列中的差异被投影到 Gabor 感受野上,因此边缘的差异被忽略了。
实验结果
为了测试本文提出的系统,作者生成了一个包含 160 帧动态场景和四个物体的视频序列。这些物体经历了严重的变形、视角变化和部分遮挡,而且,每个物体都包含一个内部的纹理轮廓为分割过程带来挑战。
图 6:在包含多个对象的合成数据集中分割并跟踪物体,尽管由于物体变形、视角变化和动态遮挡造成了严重的外观变化。
通过前馈扫描所有帧,我们得到一个完整的场景图,其顶点包含跨空间/时间的超级割组件,其边缘对应于跨空间/时间的这些表面组件之间的连通性。
分割和跟踪系统在每一阶段处理后的输出如图 6A 所示。第 1 行显示了四个不同时间点的输入图像。第 2 行显示了超分割图。第 3 行显示了物体的分割图。第 4 行显示物体跟踪图。第 5 行显示了在计算不变的物体图之后,通过反向扫描计算的修正后的物体跟踪图。
有了这个场景图,我们就可以重新遍历这些帧,并为属于场景图中相同联通组件的分割图中的每个表面分配相同的标签。这使不同的表面组件随着时间的推移在分割任务中被识别为同一对象的一部分。
这个场景图的不同组件对应于不同的不变对象。图 B 显示了根据合成数据集计算出的场景图的四个连通的组件,对应于三片树叶和熊。每个顶点对应一个不同的超分割组件。A 中所示帧对应的每个图分量的顶点用彩色表示。
实验结果表明,本文提出的跟踪方法对由于物体变形、视角变化和动态遮挡造成的形状变化具有鲁棒性。在图 6 C 中,四张图像分别来自拓扑分割和跟踪工作流程的不同处理阶段,从左到右依次为:视觉输入、超分割图、区分出纹理图块的跟踪到的表面组件、去除掉纹理图块的跟踪到的表面组件。每个图像对应的四种不同的深度网络如图所示。通过拓扑分割和跟踪,可以将杂乱的输入图像转换/链接到独立表面的无遮挡表征。
本文展示了如何通过视觉表面表征的生成将分割和不变性问题从一个需要特殊技巧或黑盒深度学习的不合理挑战转变为一个容易解决的问题。
在本文中,我们假设世界是由具有平滑纹理表面的物体组成的,动物从移动的观察点观看世界,并证明了有可能基于上述假设解决分割和不变跟踪环境中每个离散表面的问题。
本文提出的理论解释了如何从环境的透视投影中以不变的方式提取表面表征,即相邻表面组件的拓扑标签及其形状和位置的几何描述。本文证明了通过检测遮挡轮廓(带有可见表面的空间上的分隔信息)可以将图像分割成独立的表面,通过检测微分同胚性(带有从不同视角可见的表面之间的重叠关系信息)可以完成对图像序列中的不变表面的跟踪。此外,本文不仅证明了该方法在数学上的有效性,而且证明了它在合成视频目标分割和不变跟踪方面的计算效果。
人们普遍认为,图像没有遮挡、表面、轮廓等信息,只有像素的集合,而感知的目标就是「解读」这些数据。本文展示了视觉系统如何返璞归真地感知拓扑结构(遮挡、表面、轮廓等)。对这些拓扑结构的感知不需要依赖于观察者的解释,可以通过提取到的信息直接指定这些拓扑对象及其在严格的数学意义上的关系。
为此,我们需要扩展透视投影的概念。透视投影通常被认为是从三维空间中的一点到图像平面上一点的映射。然而,为了理解真实弯曲物体的分割和不变跟踪,需要完成如下步骤:(1)将透视投影视为从物体的 2D 表面到 2D 射线空间的映射(2)进一步放大焦点,从 2D 曲面如何投影到单个射线空间,延伸到如何投影到射线空间的场。
Gibson 的表面感知理论启发了本文的研究。Gibson 观察到,表面的连续性是由保序变换(光学阵列中用于连续性的可用信息可以被描述为保持了邻接顺序),以及与增长/删除事件相关的遮挡轮廓确定的。
Nakayama 等人进一步发展了表面表征的概念,并通过巧妙的心理物理实验展示了它对人类视觉的重要性。他们发现了一种令人惊讶的心理物理现象:立体图的增长/删除足以产生表面分离的感觉。他们将这种 3D 感知形式称为「达芬奇立体视觉」,以与「Wheatstone 立体视觉」进行对比,后者涉及对双眼可视点深度的感知。
上述两种立体视觉都是通过匹配一对图像中的点来表示的。但是分割和目标跟踪的问题本质上需要对点的邻域进行分组。因此,为了使这两个问题在数学上和计算上易于处理,我们必须用基于微分拓扑的「生态光学」来取代用来解释达芬奇和 Wheatstone 立体视的几何光学。
来自生态光学的拓扑概念为视觉研究中的许多经典思想提供了新的视角。例如,由于表面 3D 距离不连续,遮挡轮廓通常被视为是强度不连续的。另一方面,我们的定义甚至不包括「强度」。
在我们的框架中,遮挡轮廓只是透视投影中的一个奇异点,其相关属性是无穷小的增长边界;这样轮廓的概念是图像分割的基础。另一个例子是,不变性通常被视为与目标学习相关的问题。在我们的框架中,不变性被数学化地表述为表面的透视图像之间的等价关系,关键的等价关系是表面重叠,计算等价的机制是局部微分同胚检测。
对计算机视觉研究的影响
拓扑表面表征理论对计算机视觉具有重要意义。该理论强调了为人工视觉系统配备介于像素和对象标签之间的显式中间表面表征的重要性。此外,该理论阐明了表面重叠是实现目标跟踪的关键数学特性。相比之下,大多数用于跟踪的计算机视觉算法假设被跟踪对象在帧之间应该是「相似的」。
目前的计算机视觉视频分割方法大致可以分为以下三种。
(1)基于检测的跟踪。首先在单个帧内分割出独立的对象,然后通过某种相似度量将分割的对象实例跨帧连接起来。60 多年前,Bela Julesz 就认识到通过检测来跟踪人类感知的不足之处:人类对物理现实的感知主要是由图像之间的透视变换决定的,而不是由单张图像中的形式决定的。
(2)尝试直接使用光流作为输入来进行视频分割。
(3)端到端训练的深度网络,将视频作为输入并逐帧输出对象检测结果。
虽然其中一些计算机视觉方法与本文提出的拓扑表面表征理论相关,但它们的实现通常依赖于「特定的假设」(例如,物体构成具有相似运动模式的像素集群,这对非刚性物体无效)或「黑箱深度学习方法」,而该方法没有利用使光流生成对象标签的原理。尽管如此,现有的方法在跟踪真实世界视频中对象的基准测试上取得了不错的性能,获得了关于如何结合学习方法构建鲁棒的分割和跟踪系统的思路。
我们相信,通过结合数学化的表面表征框架,这种系统可能会变得更加强大,理由包括以下四点:
(1)表面表征阐明了需要学习的是什么。
(2)表面保证使我们可以以一种系统的方式,实现基于时空相邻性的物体识别的自我监督学习。
(3)表面表示可能受益于专门的前端硬件。
(4)表面表示将分割、跟踪和三维表面重建统一为一个连贯的框架。
对生物视觉研究的影响
本文研究结果不仅对构建新的人工视觉系统有重要意义,而且对理解生物视觉也有重要意义。目前,科学家们对早期图像处理的神经机制(如边缘检测、运动检测、以及非常高级的物体识别机制)都有详细的了解。然而,现有研究缺乏对中间加工步骤的理解,这些步骤解释了一个物体最初如何出现在视觉系统中:一组边缘如何被不变地转换成一组与特定物体关联的物体轮廓。本文提出的解决方案为神经科学研究勾画出了一条解决该问题的道路,在探究感知分组的简单神经关联之外,要研究视觉表面表征的详细工作机制。
本文提出的解决分割和不变跟踪的计算必须是局部的,因此可以在视网膜视觉区域完成。每个对象的不变标签通过不同视角的局部微分同胚性在整个对象中传播。要创建一个对象图,需要一个基本的神经机制来表示图内的连接。这个聚合信号由什么组成仍然是未知的。
值得注意的是,最近的一项研究表明,不变的视觉表面表征机制可能是灵长类动物所独有的。灵长类动物大脑中存在拓扑表面表征的一个生理学证据是「边界所有权细胞」的发现,它显示了对轮廓某侧的所有者的选择性,这是一个关键的拓扑特征。本文提出的理论认为,边界所有权细胞的输出应该随着时间的推移整合,以生成不变的物体标签,影响视觉信息从感知到符号的基本转换。
本文提出的生态光学理论不是一种随意的新视觉模型,它在数学上是必然成立的。理论的每一部分都对英语计算目标和机制。该理论的简单性和必要性为视觉研究提供了一个新的方向:详细了解大脑是如何完成表面表征。
原文链接:https://www.pnas.org/doi/10.1073/pnas.2204248119
雷峰网(公众号:雷峰网)