编辑丨岑峰
元宇宙被认为是互联网的自然迭代阶段,是人类社会在发明语言、文本、数学、图像之后,信息爆炸逼迫我们将数据不断抽象为高维数据的当下,将交流媒介彻底具象化的另一极革命。有句话说得好,“文化即元宇宙”。元宇宙的世界源于现实,又别于现实、超越现实,我们可以轻易在其中跨越物理距离面对面交流,超越现实的含义之更深层的,乃是超越规则。但在超越规则之前,我们在第一步上仍显稚嫩。
而如今,也正有无数学者正在探索元宇宙的第一步,即还原现实。在视觉领域,他们研究如何获取城市高楼的三维形状,如何模拟樱桃与水面的接触,以及如何让几何人学会走路和跳舞。
通过研究三维对象的几何与行为,这个领域——计算机图形学,正在展示其还原世界的无限潜力。
在与陈宝权、王滨、刘利斌三位学者的交流中,我们可以感受到,尽管元宇宙还遥不可及,但“种子早已萌芽”。陈宝权主要研究几何也就是三维建模,王滨和刘利斌主要研究行为,也就是物理仿真和运动控制。
几何与行为正是北京大学智能图形团队重点发展的研究方向,二者构成了“形”与“力”的二重奏。
正如恩里科·费米所言:If you can not create it,you cannot understand it.
“图形学也是在人们探索理解这个世界的一个必经阶段,同时重建世界也是图形学一直在倡导的一个理念。在多年的累积中,图形学已经累积了大量关于世界的知识。比如物体的几何形体表达、物理特性、光照等等。要实现视觉智能,图形学是很重要的一步。”陈宝权说到。
陈宝权,北京大学博雅特聘教授。研究领域为计算机图形学、三维视觉与可视化。2017年当选中国计算机学会会士,2020年当选 IEEE Fellow,2021年入选IEEE Visualization Academy,当选中国图象图形学学会会士。
计算机上还原的世界的时间是可回溯的。在2022年冬奥会上,陈宝权就带领北大科技冬奥团队为我们展示了这一时间魔法。观众用手机观看冰球比赛时,可以随时暂停比赛画面,并可360度转动冰球场,品味精彩瞬间。
这一技术也仅仅是陈宝权研究三维建模多年经验的小试牛刀。陈宝权从2000年就开始关注对真实场景进行三维建模。在2009年为深圳构建城市3D建模的项目中,陈宝权团队采用了激光扫描等手段得到现实场景的三维点云,再进行重建,这项技术已成为智慧城市建设的基础。
2008年陈宝权回国之初创建的“城市建模仿真与可视化“系列国际论坛第一届,聚集了国内外该领域许多顶级专家来参会。
2009年陈宝权创建的基于移动车载激光扫描的大规模城市场景三维重建团队。
由于室外环境限制,比如树木的遮挡,不可能得到建筑物每个面的点云数据。因此,陈宝权团队提出了结合先验知识的方法,通过从稀疏点云中识别平面区域,计算平面之间的交线和交点,以得到完整的多边形,其中平面区域是通过聚类得到的。下图给出了稀疏缺失的三维点云、聚类后的点云以及重建后的三维模型。
稀疏点云三维重建。图源:大规模城市场景建模与理解
综合二维图像和三维点云的优点,陈宝权团队在论文“2D-3D fusion for layer decomposition of urban facades”中提出了 一种融合二维图像和三维点云的分层建筑物墙面重建方法。通过将三维点云的深度信息赋予二维图像,还原了高分辨率、无噪声的建筑物模型。下图给出了三维点云与二维图像、 注册后的点云和图像、重建后的建筑物三维模型以及粘贴纹理之后的模型。
融合点云和图像建筑物三维重建。图源:大规模城市场景建模与理解
建筑和植物是城市中最常见的两类实体,其三维模型也是城市三维场景的主要构成要素。不同于具备规则性的人工建筑,植物属自然产物,三维结构特征更加复杂。尽管也可以采用规则方法建模植物,但基本上很难描述给定的模型或真实树木。基于实际采集数据(一般是图像和点云),则可以得到低层次的模型描述,比如三角网格模型。
陈宝权团队在论文“Automatic reconstruction of tree skeletal structures from point clouds”中提出了基于激光点云的自动树木骨架重建方法,通过一系列全局优化方法在稀疏的、不完整的、嘈杂的点云中适配树木的骨架结构。该算法无需对点云进行分割,即可重建互相交叠的树枝结构。
基于激光点云的自动树木骨架重建。图源:大规模城市场景建模与理解
意识到同一树种局部结构存在的相似性之后,团队又在论文“Texture-Lobes for Tree Modelling”中提出了基于 Lobe 表示的树木快速三维建模方法,以克服前述方法的效率局限性。
基于Lobe表示的树木三维建模。图源:大规模城市场景建模与理解
近十年后,在智慧城市快速发展的年代,场景规模越来越大、颗粒度越来越细、更新频率越来越高,成为了智慧城市三维建模的新要求。
在原始采集数据稀疏甚至缺失的情况下,基于先验知识和几何内在规则约束的建模方法有局限性,陈宝权团队提出了“主动式”扫描机制,将采集和重建构成一个闭环,为重建提供数据保障。而主动式采集可以依靠机器人或人来完成。
为此,陈宝权团队提出了城市场景渐进式构建思路。该思路认为,城市场景规模大且永远处在快速变化当中,集中式重建的成本昂贵且其完整性和实时更新变得不可能,应该构建一种分布式机制来实现对重建数据的扩充和修正,由此达到城市场景的瞬时更新。智能体(单/多机器人或人群)具有主动探索能力,是场景渐进式构建的主要载体。
在论文“Autoscanning for coupled scene reconstruction and proactive object analysis”中,陈宝权团队提出了基于场景物体置信度引导的单机器人主动探索方法,通过对低置信度场景进行交互以验证并提高结果准确性,从而逐渐精细化室内场景。
而到了城市室外场景时,由于环境是开放的,无法事先进行建模,直接应用相同方法会导致效率问题。“对于一个不断变化的场景,机器人要如何进行自我导航、场景探索,也是一个难题。毕竟其中不仅涉及机器人的运动,还涉及到机器人和环境的交互。”陈宝权表示。
为此,在论文“Autonomous reconstruction of unknown indoor scenes guided by time-varying tensor fields”中,陈宝权团队提出了一种时变张量场驱动的未知室内场景自动重建策略,在规划机器人移动路径时,对城市场景对象进行约束和更新,生成机器人路径指导其进行探索,从而兼顾效率和精度。
一台机器人的工作效率始终有限,因此,多机器人协同探索就成了自然的选择。“机器人协同的难点在于,N个机器人能不能达到N倍的效率。我们甚至还希望达到1+1>2的效果,比如两个机器人之间的信息融合可以让彼此对环境都更加了解,这是所谓协作的关键。”陈宝权表示。
在论文“Multi-robot collaborative dense scene reconstruction”中,陈宝权团队提出了基于最优质量传输理论的多机器人协同探索以及主动渐进式重建位置城市场景模型的算法。最优质量传输理论的目标是求出两个分布(或者说集合)之间的映射关系,使得该映射在给定的度量下代价最低。
在多机器人扫描重建问题中,把机器人看作是场景扫描任务的“供给方”,未知环境看作是场景扫描任务的“需求方”,而机器人实际执行扫描任务所需要的代价(如移动距离)作为映射的度量。以此为基础,可以通过求解最优质量传输,可得到机器人和扫描任务之间的映射,使扫描代价最低。
一种用于未知室内场景的多机器人协同密集重建算法。图源:Multi-Robot Collaborative Dense Scene Reconstruction
“整体上,我们既需要用全局规划来统筹所有机器人之间的协作和任务分配,也要基于机器人的局部视角去规划其单独就能完成的任务。这是这类任务的算法设置的基本策略。”
世界不是静态知识的集合,陈宝权在科研征途上也不断拥抱进步,采用先验知识结合数据学习的方式,见证了几何建模在尺度规模以及精细度不断延展的历程。然而,如果仅仅局限于几何建模本身,这样的世界也是静态的。
“从生成一个世界到理解一个世界,两者已经密不可分。生成是为了理解,而理解了之后也是为了更好地生成,两者在不断地互相增强。”理解不止是将物体进行分类、语义分割,而是要还原其在现实世界中与其它物体接触、碰撞的真实力学乃至动力学反应。
“几何建模是物理仿真的基础。通常我们要先得到物体的几何参数,再根据几何形状的动态变化去推测物理参数,比如王滨老师做的荷叶研究。刘利斌老师做的人体运动控制研究也一样,要控制一个人的姿态,也需要先获取真实的人体数据来学习。但面对自然现象,几何建模与物理仿真有时需要同时进行,通过全局优化来获得对现象的动态重建。”陈宝权表示。
“通过外力让一片荷叶晃动,我们就得到了荷叶的动态数据,据此不仅可以推断出荷叶的几何形状,还可以推断出荷叶的物理参数。”王滨说到,“这些物理参数不仅包括材料的硬度,还包括阻尼特性、原始形状等等。”
王滨,现任北京通用人工智能研究院(BIGAI)全职研究员,在加入BIGAI之前,她于2017年至2021年担任北京电影学院未来影像高精尖创新中心研究员。
王滨博士毕业于北京航空航天大学,期间研究方向是虚拟现实和人机交互,在当时来说是一个很前沿的方向。之后她到UBC进行访问研究,主要进行手部的仿真和模拟。
在访问研究的过程中,王滨逐渐对物理仿真感兴趣。由于物理仿真的门槛较高,于是王滨从碰撞检测的课题入手,逐渐进入仿真领域,并进行深耕。
王滨告诉我们,研究物理仿真之前,在数学和物理方面都需要深厚积累,也需要很强的代码实现能力,“在算法实现方面,物理仿真的代码量较大,而且没有很多开源的项目作为实现基础,我们往往需要从零开始造轮子。另外物理模拟的计算量大,因此需要较好的算法结构设计和高效的实现。为了提高计算效率,一些计算工作还需要转移到GPU上,也对编程能力有一些更高的要求。”
在数学方面,物理模拟主要涉及数值计算和最优化的数学理论支撑,“比如在逆向分析算法中,就需要优化算法基础。在模拟中,也需要进行大型线性系统的求解,因此涉及到算法的选择和数学近似等数值计算工作。”王滨说到。
后来,王滨到新加坡国立大学进行物理仿真领域的博士后研究工作,“材料仿真建模是当时的萌芽课题,也是在那个时候和深圳先进研究所有了深入的交流和合作。”回到北京后,王滨加入北京电影学院未来影像高精尖创新中心工作5年,最近加入北京通用人工智能研究院,一直和北京大学及国外高校展开合作,进行过很多物理仿真模拟的研究,例如材料反向建模、流体模拟、磁性物质模拟等。
荷花的物理参数推断就属于材料反向建模研究,相关成果发表在论文“Deformation Capture and Modeling of Soft Objects”中,由王滨与刘利斌等人合作完成。
系统可以仅从运动学数据中捕获和重建软物体的动力学模型。然后,利用这一模型可以合成满足用户指定约束并响应动态扰动的新运动。上图左:一只正在行走的恐龙;中间:一个锅架在跳跃;上图右:一个衣架在跳跃。下图:荷叶在人造风场中晃动。图源:Deformation Capture and Modeling of Soft Objects
图形学的交互驱动可以分为两个分支,一个是几何数据驱动,一个是力学驱动。几何数据驱动是指对一个现象进行致密几何形状采样,而后通过其进行插值并得到结果,而荷花的研究工作是基于力学的驱动。
“整体的交互是按照物理模型进行驱动,而模型的关键参数是通过数据驱动的方式求解的。例如物体的软硬程度、阻尼系数和参考形状(失重状态下的自然舒张状态)。这是从运动数据逆向推导出系统力学和物理系数的建模方法。”王滨说到。
反向材料系数生成后,也可以对其进行修改和定制,迁移到其他类似的物体上。基于运动数据驱动的模型反演也可以用来拟合那些现实中不存在的超级材料。“反向材料建模的目的是减小仿真和真实的差异,当我们需要控制模型的某些参数,使其具有新的特性时,模型也可以通过参数调整进行人为干预。”
在材料模型和系数的设计方面,一般不使用AI方法进行表述,“因为它通常无法满足很多先验的约束,直观理解就是很多硬约束条件无法先天满足。数据少、容易过拟合、泛化性差。深度学习的耦合性很强,目前来说无法或很难解释各个参数的控制变量,也无法从端到端的模型学习工作中确定其可解释意义。”例如,由于其中数据缺失和噪声严重,可变形物体的反向材料建模就需要很好地将数据驱动与先验知识相结合。
材料反向建模通常限于单个物体,不会进行多个物体交互的场景数据采集,因为涉及接触力等很多参数是无法测量和采集的。不过,王滨依然在朝这个方向迈进。
在论文“Solid-Fluid Interaction with Surface-Tension-Dominant Contact”中,王滨与陈宝权等人合作研究了强表面张力下的的流固耦合模拟——具有表面张力主导接触的固流相互作用。在这项研究中,无论是钢回形针、樱桃、秋叶还是水黾机器人,都可以在表面张力的作用下浮在水面,并荡漾出了真实自然的波纹。
三向耦合方法可以模拟固体和液体之间以表面张力为主的接触动力学,包括钢回形针的静态接触、水面上的樱桃、秋叶在小溪中漂浮和旋转 ,以及由其关节驱动的水黾机器人。图源:Solid-Fluid Interaction with Surface-Tension-Dominant Contact
这种固液表面接触的最大特点是强表面张力,比如钢回形针的密度是水的8倍,但仍然可以漂浮在水面上,就是因为水的表面张力系数较高。
对于在水面上的固体物体,它的力平衡可以理解为重力?_?g、浮力f_?、毛细力f_?三个力之间的平衡:?_?g = f_? + f_?。浮力的作用是通过对与水接触的体积的流体压力进行积分来推断的,而毛细力是通过对沿体积接触周长的表面张力进行积分来计算的。
固体和流体相互作用。在重力??、浮力f_?和毛细力f_?之间的平衡下,实心圆漂浮在水面上。图源:Solid-Fluid Interaction with Surface-Tension-Dominant Contact
从计算的角度来看,准确地模拟这三种力之间的相互作用需要对三个子系统进行适当的处理——液体、固体以及它们之间的强张力液体界面。
然而,在计算物理学和计算机图形学界,由于缺乏有效的计算工具来精确模拟三个子系统之间的相互作用,模拟强耦合的表面张力主导接触过程的问题在很大程度上仍未得到探索。
在传统的双向耦合系统中,没有直接的途径来桥接液体和固体,使得无法模拟流固体系中至关重要的f_?项。“流体的欧拉网格通常无法很好地跟踪表面,表面张力和曲率相关,而欧拉网格不易准确计算曲率。”
为此,王滨与团队提出了一种新颖的“三向”耦合机制来模拟由强表面张力驱动的固液耦合,“关键是将表面张力主导界面视为同时与液体体积和固体物体耦合的拉格朗日薄膜,界面不再是一个无限薄的数值载体,而是具有有限的小厚度。拉格朗日方法可以精确追踪表面,并计算表面的张力。同时,拉格朗日方法也可以很好表述表面和物体的碰撞,并将水分子的张力施加到固体上。”
团队围绕这种“三向”耦合思想开发了一整套数值基础设施,以全面适应不可压缩性、浮力、表面张力、刚性关节及其各种复杂相互作用的处理。“我们的数值解的一个重要特征是它能够处理液体和高密度比固体系统之间的耦合,这对于所有以前的方法都是不可行的。”
除了物体的漂浮,该方法还可以模拟“Cheerios 效应”(比如牛奶上的麦片互相吸引)、由表面活性成分引起的表面张力减弱效应(比如洗洁精加入水中)等现象。“所以,通过数值方案,我们能够实现多尺度多物理场的耦合。其基本思路都是基于背后的物理机制,再设计数值计算的框架将其描述表述出来。”
落入水中的球体。由于薄液膜的网格表示,因此可获得由固体运动刺激的精细波传播。图源:Solid-Fluid Interaction with Surface-Tension-Dominant Contact
荷叶模拟和回形针模拟都是经典力学问题,在论文“A Level-Set Method for Magnetic Substance Simulation”中,王滨和陈宝权等人合作挑战了磁流体模拟问题,并对领域内的一个多年争论给出了一个解决方法。
这个争论是“施加在物质上的磁力是体积力还是表面力?”即使在今天,这个问题仍然没有得到明确的回答,争论的起源可以追溯到 150 年前麦克斯韦方程的诞生。
在表面张力驱动的现象中,磁流体表现出其独特的表面几何形状和动力学特征,即尖锐的锥形结构阵列的出现和演变。这些吸引人的特征是由于重力、表面张力和磁力之间的多边相互作用而产生的。
王滨和团队提出,无论是理论上还是计算上,磁力耦合系统都可以作为界面问题来解决,“磁流体一般是基于背景网格进行计算。但实际上磁力既可以表达为场,也可以表达为表面力。在我们的研究中没有使用对等的场力建模,而使用了表面力形式来建模。”
使用表面力建模方法可以巧妙地利用边界的跳变模拟表面力,这方面恰好有良好的数学方法进行描述,从而可以顺利计算,“因此在磁流体建模中,我们仅需要基于欧拉网格便可以进行良好的描述。”
从磁场到机械系统的前向耦合是界面的,通过模拟亥姆霍兹力对运动物体(例如,流体或固体)的表面效应,而从物理系统到磁场的后向耦合是体积的,通过跟踪浸入背景磁场中的移动磁性材料(水平集、粒子或网格)。
该计算框架可以很容易地集成到标准的欧拉流体求解器中,实现复杂磁场的模拟和可视化。由于方法的欧拉性质,其天生能够准确计算长程磁相互作用,而不管浸入物体之间的距离如何。他们提出的方法对包括铁磁流体、刚性磁体、可变形磁体和多相耦合等对象的模拟表现出丰富的几何和动态特性。
基于统一水平集的方法可以模拟和可视化各种磁现象的动力学,包括铁磁流体、可变形磁体、刚性磁体和多物理场相互作用。图源:A Level-Set Method for Magnetic Substance Simulation
就像我们在教科书里经常看到的,很多物理问题都有很限定的对象和边界条件,但是计算机图形学模拟的物理现象,不管是上述提到的固液耦合还是磁流体,往往空间、时间、相变的跨度很大,并且也涉及多个现象,跨越了多个边界条件。
“也就是说,我们需要在一个求解里面实现跨度很大的现象变化和边界条件变化,这和传统的数学物理领域的求解很不一样。”陈宝权表示,“要求解这样的复杂现象会涉及到不同体系的方法,要将它们融合在一起,同时在几何的表达上有一个连续的表达,是很难做到的。比如,固体和流体耦合的模拟中,固体有固体的表达,流体有流体的表达,它们之间还有能量的传递。换句话说,就是固体有一个方程,流体有一个方程,同时还要将两个方程做一个关联。”
磁流体的仿真挑战在于多物理场模拟。例如磁流体模拟中,其本质是在固体仿真中添加一个磁场,磁场和固体具有相互作用的性质。这项额外添加的磁场会让整体系统更加复杂,因此经典力学和电动力学的耦合是其关键所在。类似的挑战还存在于刚性和弹性体的耦合仿真中。
弹性体与刚体的联合建模的最大应用方向是人体的仿真。之前人体仿真工作都是将人体简化为刚体铰链结构,并没有考虑肌肉脂肪对人体所带来的影响。但实际上,这些弹性体人体组织对运动行为的影响很大。“如果我们的控制算法未获得此类肌肉脂肪对骨骼的影响,那么其逼真度就会大幅下降。因此,我们要将所有对运动产生影响的因素考虑进去。”陈宝权表示。
目前的很多游戏中,此类仿真应用较少,“原因是无需如此精准的仿真,他们追求的更多是计算效率以及视觉效果。”
弹性体与刚体的联合建模涉及到数字人的研究建模,数字人的建模难题在于如何对数字人进行全方位的描述,包括纹理、动作的复现,以及医学生理结构(比如血管、肌肉、神经等)。
在论文“Learning Skeletal Articulations with Neural Blend Shapes”中,刘利斌与陈宝权等人提出了一种新方法,克服了3D数字人模型在运动中常见的变形缺陷,例如在关节处出现蒙皮塌陷(形变缺陷现象),从而实现了高质量的蒙皮变形。
传统的蒙皮和装配变形模型过于简化了人类和动物的移动方式,导致了经典的形变缺陷现象,而使用混合形状技术则可以在关节等敏感区域提供细粒度控制。基于这一点,这项工作提出了一种新的基于人工神经网络的“神经混合形状”技术,能够自动处理具有不同形状和连通性的数字模型。
通过神经网络学习为具有任意连通性的人体输入绑定骨骼和蒙皮,并生成神经混合形状。该框架可以生成与姿势相关的位移,导致高质量的变形,尤其是在关节区域。图源:Learning Skeletal Articulations with Neural Blend Shapes
在训练期间,网络观察形状的变形,并学习使用间接监督来推断相应的绑定、皮肤和混合形状,绕过提供监督包络或混合形状变形参数的需要。由于不假设训练数据具有特定的潜在变形模型,间接监督能够学习任意数量的混合形状。
包络变形分支。给定 T-pose (V, F) 和关节旋转 (R) 的网格,神经网络通过观察角色关节顶点位置,通过间接监督来推断蒙皮 (W) 和装配 (O) 参数。图源:Learning Skeletal Articulations with Neural Blend Shapes
“这项工作是第一个基于深度学习的自动包络方法,结合了与姿势相关的混合形状,可用于具有任意连通性的皮肤网格。”刘利斌说到,“值得注意的是,我们的模型具备很强的对人体细节形变(例如,肌肉的抖动)的捕捉能力。”
陈宝权表示,“我们目前已经实现了单向的建模,也就是将动作复现出来,而后再修改肌肉的形状反应,而非由于肌肉的变化而导致对应的运动控制。因此肌肉的收缩和脂肪的抖动存在差异,仿真与实际还是存在差异。”
“人的动作是一个主观过程的结果。因此,我们通常无法通过既定的规则和规定限制动作的过程和表现,其本质上是一个统计学模型。所以,对于动作生成更多使用基于数据驱动进行研究,AI是很好的解决方法,目前相关前沿工作也是更多基于AI的突破,其中深度学习、强化学习扮演和起到了重要的角色。”刘利斌补充到。
刘利斌,北京大学前沿计算研究中心助理教授,主要研究方向是计算机图形学、物理仿真、运动控制以及相关的优化控制、机器学习、增强学习等领域。
加入中心之前,刘利斌博士曾于加拿大不列颠哥伦比亚大学(The University of British Columbia)及美国迪士尼研究院(Disney Research)进行博士后研究,后加入美国硅谷创业公司DeepMotion Inc.担任首席科学家。
刘利斌重点关注运动控制,这项技术最重要的应用之一是角色动画。传统角色动画的生成涉及建模、骨骼绑定、相机控制和动作生成等过程,整个过程需要耗费大量时间和人力,结合人工智能技术,有望实现动画生成的加速。实际上,在博士期间,刘利斌就开始了对动画角色运动技能学习的探索。
和物理仿真不同,角色动画领域也没有足够的体系化的领域知识,因此刘利斌和团队开始尝试基于强化学习的方法。研究发现,无论是对单个技能还是技能组合的学习,强化学习都比传统方法有更好的效果。
“我认为完整的人工智能应该具有良好的运动能力,它可以支持智能体探索较大的空间,并能完成更加复杂的任务。因此,我们希望未来的人工智能能够主动地去感知运动,自主的学习新的运动技能,并且能够根据实际情况来协调运用这些技能,从而与人和其他人工智能进行交互与协作。”刘利斌表示。
当然,纵使肌肉抖动能够很好地还原,要用人工智能生成流畅的动作,还需要进行大量动作数据的学习。从动画师手动调整角色关键帧中的姿态,到动作捕捉技术,再到基于深度学习的监督姿态估计技术,实际上,动作学习还可以再进一步——无监督动作学习。
在论文“Unsupervised Co-part Segmentation through Assembly”中,刘利斌与王滨、陈宝权等人合作提出了基于无监督学习的图像共同部分分割方法。该方法可以对人体、手、四足动物和机器人手臂等物体实现有效的部件分割,进而有效地捕捉视频中的动作信息,这些信息融合到动画角色模型上后,就可以自然地生成动作。
在不同场景下测试的视觉分割结果,包括人类、手、四足动物和机械臂。图源:Unsupervised Co-part Segmentation through Assembly
视频序列包含动作的所有结构和运动信息,包括主体在任何时间的姿势以及姿势之间的动态转换。
刘利斌和团队在这项研究中的目标是从视频中提取基于部件的通用表示。得到了部件的表示之后,就可以进行自由的组合。
具体来说,在训练过程中,图像编码器将源图像输入转换为源潜在特征图和源部件变换,其中源部件变换可以将源潜在特征图逆变换成规范特征图,规范特征图是特征图的“原点”。同时,还有另一张目标图像作为输入,被转换为目标潜在特征图和目标部件变换。规范特征图经过目标部件变换转换为重定位特征图。判断网络学习效果的指标是将重定位特征图解码为目标图像的还原度,以及将源潜在特征图解码为源图像的还原度。
训练过程,以端到端的方式训练分割网络。图源:Unsupervised Co-part Segmentation through Assembly
由于不是通过全局图像扭曲而是混合每个部分的扭曲图像来生成最终图像。从本质上讲,基于图像的装配操作有效地约束了每个单独零件的流形,从而改善了最终结果。
与基于单个图像的分割相比,自监督的学习模式聚合了来自多个图像的形状相关信息,从而改进单个图像的分割。
在电影等场景中,相机镜头也是叙事的重要部分。基于摄影方面的先验知识生成相机轨迹固然是一种思路,但这种先验知识很难用数学语言表达。为此,在论文“Example-driven Virtual Cinematography by Learning Camera Behaviors”中,王滨和陈宝权等人合作提出了从输入视频提取相机风格表示的方法,使拍摄虚拟动画场景的过程展现出相似的风格。
一种摄像机运动控制器的设计,该控制器能够自动从不同的电影剪辑中提取摄像机行为(左)并将这些行为重新应用于 3D 动画(中)。在此示例中,模型从三个不同的参考剪辑中自动生成了三个不同的相机轨迹(红色、蓝色和黄色曲线)。右边显示了沿每个相机轨迹的 4 个特定时刻的视点,展示了系统从不同的输入示例中编码和再现相机行为的能力。来源:Example-driven Virtual Cinematography by Learning Camera Behaviors
王滨表示,该工作中人工智能比重较大,因为它和物理模拟有所差异。“物理模拟背后有丰富和扎实的形式化知识,无需AI重复造轮子。而对于镜头语言,它的语义性质强,目前没有合适的数学模型进行描述。而这正是神经网络的优势之处,它更适合这种语义性质强的事物建模和描述。”
“在运动生成中,目前没有很多的语义级表征。”刘利斌补充到,“在风格表征中会有类似的工作和元素存在,例如表示欢快或者悲伤的情绪的语义表达变量。但是在运动生成中,目前没有类似成果。但我认为这是一个未来的方向,因为运动控制是多种动作的有机组合,其抽象、语义级的表示可能是一个有前景的方向,目前也有类似的苗头和前期工作出现,很有意义。”
谈及选择深耕运动控制的原因,刘利斌说到,“对于运动控制方向,学界的探索还是领先的。目前来看其生成的效果尚不能达到业界需求,虽然可以提供基本的控制能力,但是其效率、真实性离工业界的实际需求还有较大距离。这个方向有很大的研究空间。”
当下的工作还不会对环境进行建模,但在未来,运动控制可能需要和物理环境进行交互,“我们会考虑加入环境物理建模的步骤,增加其真实性。”
“在运动控制领域内,目前人们主要关注多技能的学习。例如对抗(格斗)和协同(跳舞)等类型的技能中,就涉及了多种技能的组合。”多技能学习不仅对于娱乐有用,在智能驾驶、服务机器人等领域也大有用处。
刘利斌认为,技能迁移在未来会是个潜在研究热点,比如获取到一些控制经验后,如何利用已有知识进行更好的其他部分的协同和学习?当机器人学会平衡技能后,学习后空翻动作时如何利用平衡技能?因为后空翻动作完成后也涉及到平衡状态。“这有点像NLP的预训练模型,对于动作控制,我们也可以进行类似的研究,可以称之为‘数字小脑’。”
“可以说,我们目前在进行小脑人工智能的研究和开发,大脑部分更多的是语言、视觉等方面。在未来,这两个大部分可能会更多的融合,从而绽放更美的火花。目前小脑部分还在开发,尤其是多技能集合的学习和扩充,相信有一天我们可以实现完备的数字小脑。”
尽管计算机图形学在技术应用上已经触达了现实生活,但仍存在基本的挑战。
“几何建模在基础理论层面仍有一个远未实现的目标,那就是对随时间变化的事物进行连续、高效、统一的几何表达。比如一棵树在从春天到冬天会发生很大的形态变化,在这过程中,如何进行几何表达,同时兼顾关系属性、动态表达,就是个大难题。而具体到物理、动态的时候,对于每种属性的表达都会有所不同,最终可能会导致不一致的输出结果。在工程系统方面存在诸多挑战,计算机图形学的工程系统涉及传感器、传感器通讯、计算、存储等等,需要推动这方面的发展,GPU便是一个实例。”陈宝权表示。
在物理仿真领域,多物理场景、多尺度模拟都还存在许多挑战,而诸如相变、碰撞、翻转、形变等不可微现象也对基于梯度学习的神经网络应用带来了根本困难。
“我不是很赞同使用深度学习完全替代物理公式模型,因为物理学家已经对该场景进行了长久的研究,并给出了理论模型的近似。而神经网络并没有能够像人类一样对类似场景进行类似量级的归纳总结和表达,因此其通用性较为受制。换句话说,基于数据的神经网络模型通常无法学习到物理世界的底层逻辑,也无法保证物理模拟特征的可控性。”王滨表示。
对于上述挑战,目前的研究方向之一是使用统一的模拟方法进行描述和建模。“比如MPM方法既适配流体又适配刚体的模拟,得到了领域的认可。而IPC方法能够将碰撞使用能量形式而非约束形式加入到物理系统中,其普适性体现于对于单边约束的仿真统一解法的归一和简化,能够稳定简单地进行求解,并保证每一步都没有穿透,且操作可微。”
人工智能目前并没有大规模利用在物理仿真场景中,但是王滨也指出,在未来,物理模拟系统中的很多棘手问题可以通过AI进行解决,“AI并不是推翻一切物理定律、重新造轮子的技术。它更应该像是一个工具,解决现有系统中的难以解决的步骤和问题。在未来,我相信结合传统物理建模和人工智能方法的思路会逐渐成为主流。”
王滨认为,深度学习也许在响应的即时性方面能够给予不错的补充,因为它们通常能够找到一个不可解释的快速的满足要求的解,“这个解可以表达我们想要的内容,并且速度较为快速。”
“比如,在仿真的过程中我们通常需要解一些大型的线性系统,但是该矩阵的条件树通常不够完备,此时我们需要使用一些其他技术,例如预条件来得到这种场景下的比较可靠的解,这是一项很难和耗时的工作,它和物理问题强相关。此时,AI也许也能够帮助我们快速解开方程,得到一个合适的预条件,并解开病态方程。”
运动控制基本属于基于经验的学习,因此其和深度学习所面临的问题相同,比如可解释性,刘利斌说到,“其基础理论挑战也可以参考人工智能的基础理论问题。而工程系统方面,仿真本身需要大量计算,因此需要考虑效率。在应用方面主要的问题在于生成的质量,很多工作目前还是无法满足工业使用的需求。”
不像计算机视觉几乎有着全面拥抱深度学习的趋势,计算机图形学仍然非常看重先验知识的作用,而随着两者不断深入交汇,或许将带来无法预料的新发展。
计算机图形学对人工智能有何促进作用呢?陈宝权表示,可以分成两个层次。
第一个层次是为人工智能提供训练与测试的任务环境。“首先是提供训练数据。我们可以通过仿真的手段得到大量的仿真数据。一些数据的获取通常十分昂贵,真实世界的数据采集可能无法满足训练需求,此时模拟可提供帮助。其次是为智能算法提供虚拟测试环境。总的来说,我们可以通过搭建仿真环境,让智能体在其中运行得到训练、测试与反馈,这样的模式在自动驾驶场景中已经得到广泛应用。”
第二个层次是为人工智能算法本身提供问题对象的表达模型。比如,基于模型的强化学习,可以直接基于计算机图形学对环境的建模参数作为数据输入来学习,从而使得学习的数据量大幅降低。“这相当于帮助AI简化环境的复杂度,也就是说,计算机图形学已经帮助AI压缩了环境信息,提取出最重要的因素。同时,基于这个学习过程得到的模型也更具知识性,更具可解释性。此外,计算机图形学提供的虚拟环境也更加可控,可以控制知识和难度等等因素,避免不必要的偶然因素。”
计算机图形学方法一般是基于约束条件,用显式的方法去建模。AI一般是数据驱动,但它们能达到的效果是不一样的,“如果要建模更加复杂的物体,就需要将问题分解,看哪些需要CG,哪些需要AI,哪些需要结合两者。”
一般而言,在最初阶段,我们倾向于用计算机图形学的知识将问题分解,到了问题树的节点处,或者说最后一公里处,问题就变得不太容易显式建模了,这时候就需要结合AI方法。例如,当知道所建立的模型是一棵树,那么我们会基于这个先验知识建立一个母模型,使其具有树木的基础特点,而后再根据数据去特定的描述这棵树的参数。
同样,物理建模具有很完备的知识体系,而AI还处于比较黑盒的阶段,依赖数据学习。知识和数据之间的关系如何?王滨表示,“知识是从数据中得到的归纳总结的模型,而数据的优点在于和真实世界的差距更小,因此信息量更大。知识更加宏观,数据更加微观和特定,这可能是两者之间的最大差异。”
科学中互相接近的概念不可能完全独立。正如荷花的几何数据可以推断其力学参数,磁场的分布可以推断磁流体的形态,几何建模背后的形、物理仿真和运动控制背后的力,都是互相衍生、不可分离的存在。亦如相对论中,匀速运动转动了光锥,导致钟慢尺缩效应,质量扭曲了光锥,导致自由下落效应,时间与空间不可分离,质量与时空亦不可分离。
形与力尽管无法涵盖计算机图形学的全部,也不是构建元宇宙的全部基石,但二者必然在未来携手,并与人工智能相互推动,在元宇宙中还原现实中最重要的体验之一——触摸世界。
雷峰网(公众号:雷峰网)雷峰网