“好家伙!”
“现在的Paper也是越来越皮了”。正在开心摸鱼的同事,边说边给我发过来一段Demo。
原来『宝藏男孩』特朗普又被玩坏了。
『被逼着』跟蔡徐坤跳起了“鸡你太美”(谐音梗)。
(川宝:AI不讲武德!)
跟二次元萝莉跳起了萌系宅舞。
(川宝:给我顶小红帽,跳的比她好[傲娇脸])
跟印度小哥跳起了Jackson的经典舞步。
(川宝:快看我的舞姿是不是很性感?)
看完Demo,正为找不到选题疯狂薅头发的小编我,一时也是惊住了:好家伙!今天的选题有了!!
火速让同事把资料推给了我。
原来逼着川宝大秀舞姿的是上海科技大学研究团队的最新AI,这篇AI论文名为——《Liquid Warping GAN with Attention:A Unified Frame work for Human Images Synthesis》
简单理解就是,基于特定框架的AI,能够完成运动仿真、外观转换以及新视图合成等人体图像处理任务。上面特朗普的舞蹈Demo是AI合成的最终演示效果。(获取完整视频见文末)
接下来,我们来扒一扒它背后的合成原理。
人体图像合成,在影视制作、游戏制作、角色动画/转换、虚拟服装试穿等方面有着巨大的潜在应用。
一般来讲,在给定一个源人体图像和参考图像下,它需要完成三项任务:
1、运动仿真:生成一个具有源人类纹理和参考人类姿势的图像。
2、新视图合成:从不同视角捕捉人体新图像并合成。
3、外观转换:在参照人体图像穿着衣服时,生成保持源面部身份的人类图像。(不同人可能穿同样的衣服)
在处理以上任务时,现有方法主要采用2D关键点来估计人体结构。
然而,它们仅表达位置信息,无法表征人的个性化形状并模拟肢体旋转。对此,研究人员提出了一套全新的模型处理框架:
它包括身体网格恢复模块(Body Mesh Recovery),流合成模块(Flow Composition),以及带有液体翘曲块(Liquid Warping Block ,LWB) 的GAN模块三个部分。
Isi为给定源图像,lr为参考图像
其中,使用3D身体网格恢复模块用来解开人体姿势和形状,不仅可以模拟关节的位置和旋转,还可以表征个性化的身体形状;使用带有液体翘曲块(AttLWB)的GAN,保留纹理,样式,颜色和脸部身份等源信息;将图像和特征空间中的源信息传播到合成参考,通过去噪卷积自动编码器提取源特征,以很好地表征源身份。
具体方法如下:
Body Mesh Recovery:其作用是预测运动姿态(肢体旋转)和形状参数,以及每个图像的三维网格。主要使用HMR进行三维姿态和形状估计。
Flow Composition:在已有估计基础上,利用摄像机视图,为每个源网格和参考网格绘制一个对应图和一个权重索引图。主要使用完全可微的渲染器—神经网格渲染器(NMR)来完成。
Attentional Liquid Warping GAN:该阶段负责合成高保真的人体图像。它需要完成:
1)合成背景图像。
采用Three-stream的方法:包括GBG流,对被遮罩的背景图像和在颜色信道中获得的掩模进行级联;源标识流GSID,引导编码器提取能够保留源信息的特征;源标识流GT-SF,由双线性取样器接收扭曲前景,对应映射作为输入,以合成最终结果。
2)基于可见部分预测不可见部分的颜色。
采用鉴别器进行识别,它是一个全局-局部内容导向(Global-Local Contentorientation)架构,包括全局鉴别器DGlobal,身体鉴别器DBody和面部鉴别器三个部分。
3)从SMPL重建中生成衣服、头发等像素。
这里主要采用了注意力液化块(如下图),它在旧有方法上解决了在人体运动仿真中,源图像多视点输入,以及在外观传递中,服装的不同部位来自不同的人等问题。
除此之外,为了提高泛化能力,研究人员引入了一种一次/几次学习策略。
除了模型外,要想得到高保真输出效果,还需要有高质量的数据集。
研究人员建立了三个测试/训练数据集和一个评估数据集。分别为Impersonator、MotionSynthetic、FashionVideo和Youtube-Dancer-18.
Impersonator(iPER),是一个具有多种样式、不同人物穿不同衣服的数据集。
它有206个视频、241564帧画面。涉及30名受试者,每个受试者穿着不同的衣服(共103件衣服。),表演一个A形视频和一个随机动作的视频。
另外,iPER还包括了他们的动作、服装、身高和体重分布等统计信息。
MotionSynthetic运动合成数据集,创建该数据集的目的是便于对人体穿着的真实感进行综合评价,特别是通过合成的图像数据集,可以对不同的服装外观进行综合评价。
该数据集总共有120个网格,所有这些具有UV纹理图像的网格都已在SMPL中注册。对于每个网格,从Mixamo中选择一个姿势序列,从互联网上选择一个背景图像。基于网格、UV图像、姿势序列和背景图像等信息,采用核磁共振(NMR)对合成图像进行渲染,总共得到39529帧。
再根据不同的网格划分为8:2的训练/测试集,如下图中的合成图像。
FashionVideo:它包含500个训练和100个测试视频,其中每个女模穿着Fashion的衣服,服装和质地千差万别,手势却很少。每个视频大约有350帧。另外,这个数据集缺乏背景的多样性,所有的背景都是黑色的。如图:
Youtube-Dancer-18:是作为评估数据集,对该方法的有效性和通用性进行检验。它全部是从YouTube平台下来来的,总共18个,每个视频持续4到12分钟。(如上图Dancer)
需要说明的是,研究人员没有在这个数据集中训练模型,只是对SN帧进行了个性化采样,并直接对该数据集进行测试,以评估现有所有方法的泛化能力。
经过实验分析,与现有其他方法,该方法在运动仿真、外观转换以及新视图合成三项综合任务上均达到了最佳性能。我们再来看一组演示Demo:
如之前所述,这项AI研究团队来自上海科技大学。
高盛华,是上海科技大学副教授,博士生导师。也是该项研究的通讯作者。他2008年获得中国科技大学理学学士学位(优秀毕业生),2012年获得南洋理工大学博士学位,2012至2014年,在新加坡高级数字科学中心担任博士后。
他的研究兴趣包括计算机视觉和机器学习。
该项研究的一作是上海科技大学在读博士—Wen Liu。
他的研究方向主要集中在人体三维重建、图像合成、运动传递、新视角合成、神经绘制和视频异常检测等方面。
其他作者还有:深圳腾讯AI实验室的首席研究员Lin Ma,主研计算机视觉、多模式深度学习领域;上海科技大学硕士Zhixin Piao,主要研究课题是人体三维重建和运动传递;上海科技大学本科毕业生Zhi Tu,研究课题是人体运动传递和医学图像分析;英国伦敦帝国理工学院博士罗文汉,其研究方向包括计算机视觉和机器学习的几个主题,如运动分析、图像/视频质量恢复、目标检测与识别、强化学习等。
论文地址:https://arxiv.org/pdf/2011.09055v2.pdf
YouTube地址:https://www.youtube.com/watch?v=Zkrcx3_DtCw&feature=youtu.be
引用链接:
https://paperswithcode.com/paper/liquid-warping-gan-with-attention-a-unified#code
http://weibointl.api.weibo.com/share/189441008.html?weibo_id=4579529253719353
雷锋网雷锋网雷锋网