AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

朱俊彦 AI 生成模型文本、图像、草图卡内基梅隆大学

作者：我在思考中

2022/10/10 09:29

作者 | 李梅

编辑 | 陈彩娴

最近的生成式 AI 可谓十分火爆，新出的预训练图像生成模型多到让人目不暇接。无论是肖像、风景，还是卡通漫画、特定艺术家风格元素等等，每个模型都有它擅长生成的内容。

这么多模型里面，如何快速找到一个能满足自己创作欲的最佳模型呢？

近日，卡内基梅隆大学的助理教授朱俊彦等人首次提出了基于内容的模型搜索算法，让你能够一键搜索出最匹配的深度图像生成模型。

论文地址：https://arxiv.org/pdf/2210.03116.pdf

在团队基于这套模型搜索算开发的在线模型共享和搜索平台 Modelverse 上，你可以输入文本、图像、草图和给定模型，来搜索出最匹配或相似的相关模型。

Modelverse 平台地址：https://modelverse.cs.cmu.edu/

图注：输入文本（如“非洲动物”）、图像（如一张风景图）、草图（如一只站立的猫的草图）或者一个给定模型，输出排名靠前的相关模型（第二行、第三行）

比如，输入文本“face”，得到结果如下：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

输入一只猫咪图像：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

输入一匹马的草图：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

基于内容的模型搜索

和传统的多媒体搜索一样，模型搜索能够帮助用户找到最适合其特定需求的模型。但基于内容的模型搜索任务有其特殊难点：

判断模型是否可以生成特定图像，这是一个比较难计算的问题，而且很多深度生成模型并没有提供有效方法来估计密度，其本身也不支持评估跨模态相似性。而蒙特卡洛这种基于抽样的方法又会使模型搜索过程变得非常缓慢。

为此，朱俊彦团队提出了一种新的模型搜索系统。

每个生成模型都会产生一个图像分布，所以作者将搜索问题处理为优化，以最大化在给定模型的情况下生成与查询匹配的概率。如下图所示，该系统由预缓存阶段（a，b）和推理阶段（c）组成。

图注：模型搜索方法概览

给定一组模型，（a）首先为每个模型生成 50K 样本；(b) 然后将图像编码为图像特征并计算每个模型的一阶和二阶特征统计。统计数据缓存在系统中以提高效率；(c) 在推理阶段，支持不同模态的查询，包括图像、草图、文本描述、另一个生成模型或这些查询类型的组合。作者在这里引入近似值，查询被编码为特征向量，通过评估查询特征与每个模型统计数据之间的相似性，来检索具有最佳相似性度量的模型。

模型搜索效果

作者对算法进行评估，对 133 个深度生成模型（包括 GAN、扩散模型和自回归模型）进行了消融实验分析。与蒙特卡洛基线相比，该方法可以实现更高效的搜索，速度在 0.08 毫秒内，提升 5 倍，同时还能保持高精度。

通过对比模型检索结果，我们也可以大致了解针对不同查询输入，哪些模型能生成质量更高的图像。比如下图展示了模型检索的结果对比。

图注：模型检索结果示例

最上面一行是图像查询，输入静物画，检索相关艺术风格的模型，得到排名第一的 StyleGAN2 模型和排名最后的 Vision-aided GAN 模型。中间行是草图查询，输入马和教堂的草图，得到 ADM、ProGAN 等模型。最下面一行是文本查询，输入“戴眼镜的人”和“说话的鸟”，分别检索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。

作者还发现，不同网络特征空间的模型性能存在差异。如下图所示，在输入图像查询时，结果显示三个网络 CLIP、DINO 和 Inception 都具有相似的性能；而在输入草图查询时，CLIP 效果明显更好，而 DINO 和 Inception 则不太适合给定查询，它们在艺术风格的模型上表现更好。

图注：不同网络特征空间中基于图像和草图的模型检索比较

另外，这项工作所提出的模型搜索算法还能支持多种应用，包括多模态用户查询、相似模型查询、真实图像重构和编辑等。

例如多模态查询可以帮助细化模型搜索，在只有“Nicolas Cage”的图像时，只能检索到人脸模型；但当同时使用“Nicolas Cage”和“dog”作为输入时，就可以检索到能生成“Nicolas Cage dog”图像的 StyleGAN-NADA 模型。（如下图）

图注：多模态用户查询

当输入是一个人脸模型时，可以检索到更多的人脸生成模型，并且类别保持相似。（如下图）

图注：相似模型查询

给定真实人脸的查询图像，使用排名较高的模型能获得更准确的图像重建。下图是使用不同排名模型的 CelebA-HQ 和 LSUN Church 图像的图像逆映射示例。

图注：将真实图像投射到检索到的 StyleGAN2 模型。

在对真实图像进行编辑的任务中，不同模型的表现也有高低之分。下图中，使用基于图像的模型检索算法排名第一的模型来对真实图像进行逆映射，然后使用 GANspace 进行编辑，从而将浮世绘图像中的皱眉人脸变成笑脸。

图注：编辑真实图像

这项研究已经证明了模型搜索的可行性，而文本、音频或其他内容生成的模型搜索还有很大的研究空间。

但目前来看，这项工作所提出的方法还有一定的局限性。例如，在查询特定的草图时，有时会匹配出抽象形状的模型；而有时进行多模态查询时，只能检索到单一的模型，系统可能会很难处理像一只狗的图像 + “大象”这样的多模态查询。（如下图）

图注：失败案例

另外，在其模型搜索平台上，对检索出的模型列表并未根据其效果进行自动排序，如在生成图像的分辨率、逼真度、匹配度等方面对不同模型进行评估并给出排名，这样可更便于用户检索，也能帮助用户更好地了解目前生成模型的优劣情况，期待这方面的后续工作。

参考链接：

https://twitter.com/junyanz89/status/1578429385719177223

https://www.youtube.com/watch?v=smm0t81st_w

更多内容，点击下方关注：

扫码添加 AI 科技评论微信号，投稿&进群：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

雷峰网(公众号：雷峰网)