对抗高质量图像生成中的模式崩溃，及相关论文推荐

2019/09/08 21:48

雷锋网 AI 科技评论按：随着 ICCV 2019 发榜，许多学者已经开始公开以及传播自己的 ICCV 录用论文。计算机视觉领域重磅大佬、UC 伯克利 Jitendra Malik 和南京大学合作的一篇论文引发了我们的注意。我们也一同回顾一下与它相关的几篇论文。

《Diverse Image Synthesis from Semantic Layouts via Conditional IMLE》

通过条件 IMLE 从语义布局图中生成多样的图像

作者：Ke Li（UC 伯克利）, Tianhao Zhang（南京大学）, Jitendra Malik（UC 伯克利）
论文地址：https://arxiv.org/abs/1811.12373
ICCV 2019 录用论文
论文项目页面：https://people.eecs.berkeley.edu/~ke.li/projects/imle/scene_layouts/

对抗高质量图像生成中的模式崩溃，及相关论文推荐

在对应白天-黑夜的隐含噪声向量控制下，图像内容可以在白天和黑夜之间进行连续的变化

亮点简介：对于不使用 GANs 的，也就是基于端对端网络的条件图像生成以及图像转换任务来说，大多数现有方法都只能生成一张或者有限张好的图像；甚至于，使用 GANs 的方法虽然理论上可以不受数量限制，但实际上也需要想办法克服模式崩溃（mode collapse）问题，不然生成的图像都大同小异。这篇论文就是 Jitendra Malik 等人对模式崩溃问题提出的解决方案，目标是能根据语义分割图像生成任意多张对应的真实图像，在保留同样的语义布局的同时，可以有无限多的外观变化。
他们的方法是使用了最近提出的 Implicit Maximum Likelihood Estimation (隐式最大似然估计，IMLE) 框架，在网络中用隐含向量对应图像外观的不同因素，从而通过隐含向量的变化，控制图像的外观变化；这样，对图像风格的变化有了更多控制，通过不同向量的值的组合也就能让得到的结果更多样、不重复。另外，即便使用同样的模型架构，他们的方法生成的图像也瑕疵更少。虽然学习到的隐含空间缺乏监督，但是能够学习到一些合理的结构，就能够帮助让模型发挥出很多的表现。
这篇论文的方法同时让我们想起 ICCV 2017 论文《Photographic Image Synthesis with Cascaded Refinement Networks》和 CVPR 2019 论文《A Style-Based Generator Architecture for Generative Adversarial Networks》。雷锋网 AI 科技评论下面也做简单介绍。

《Photographic Image Synthesis with Cascaded Refinement Networks》

用级联优化网络生成照片级图像

作者：斯坦福大学博士陈启峰，英特尔实验室视觉组主管 Vladlen Koltun
论文地址：https://arxiv.org/abs/1707.09405v1
ICCV 2017 录用论文
项目地址：https://github.com/CQFIO/PhotographicImageSynthesis

对抗高质量图像生成中的模式崩溃，及相关论文推荐

亮点简介：在这篇论文发表时，用 GANs 生成大尺寸、高精度、高真实度图像的方法尚未出现，这篇论文的成果可以说是一大突破；而且论文只用了端到端的网络就达到了这个目标。
具体来说，「从一张真实世界的图像生成语义分割布局图像」这一监督学习任务已经得到了较好的解决，那么反过来，从「从语义布局图像生成照片级图像」也就是完全有可能的，这就为生成大尺寸、高精度、高真实度图像打开了一扇窗户。当然了，真的做到这一点还是需要一些技巧的，作者们通过大量实验，总结出模型需要兼顾全局协调性、高分辨率、记忆力三个特点才能达到好的效果，并设计了对应的逐级提高分辨率的级联优化网络 CRN。另外，他们也采取了一些手段，首先让模型生成多张不同的图像，然后从多张图像中选择最真实的部分进行拼接。最终达到了非常好的效果。

《A Style-Based Generator Architecture for Generative Adversarial Networks》

一个基于风格的 GANs 图像生成架构

论文作者：NVIDIA 实验室 Tero Karras, Samuli Laine, Timo Aila
论文地址：https://arxiv.org/abs/1812.04948
CVPR 2019 最佳论文之一
项目地址：https://github.com/NVlabs/stylegan
人脸生成公开 Demo：https://thispersondoesnotexist.com/

论文亮点：我们都知道，GANs 生成图像都是从一个随机种子开始的，然后我们就只能期盼这是一个好的随机种子，可以带来好的图像 —— 说白了我们对中间的生成过程完全没有控制。在条件图像生成的论文中人们对这个问题有一些研究，但是没有大的突破。
这篇论文提出的新架构从图像风格迁移论文中得到了启发。他们的模型架构可以自动地、无监督地学习到不同的高级别属性（比如在人脸上训练时可以学习到姿态和肤色），而且在生成的图像中有足够的随机变化。他们方法的关键在于，对控制图像中变化的隐含变量进行了解耦，这样我们就得以具体地控制不同高级别属性的取值以及它们的变化。他们提出的两种新方法也可以用在任意的生成器架构中。

这三篇论文中，第一篇、第二篇论文都有「从语义布局图生成图像」，而第一篇和第三篇论文都有「学习隐含变量空间、尝试隐含变量解耦」。这三篇论文值得放在一起读一读，仔细揣摩对比一下他们的做法。

雷锋网 AI 科技评论报道。