很多人在使用文生图工具时都会遇到类似的情况,输入一段很清晰的描述,希望画面中人物站在左边、动物在右边,或者希望海报上出现一段完整可读的文字,但生成结果却常常让人失望。
要么位置关系混乱,要么文字变形,要么整体画面看起来不自然。继续调整参数,有时结果会更接近描述,但画面质量却明显下降,颜色变得奇怪,结构开始扭曲。反复尝试之后,往往需要生成十几张甚至几十张图,才能勉强挑出一张可用的。
这种既想让模型听懂指令,又不希望画面被破坏的矛盾体验,已经成为很多用户在实际使用生成模型时的共同感受。
随着生成式人工智能逐渐进入设计、电商、内容创作等真实场景,这种问题变得更加突出。用户不再只是追求一张看起来不错的图,而是希望结果稳定、结构正确、细节可靠,可以直接用于实际工作。
然而现有方法在可控性和稳定性之间始终存在明显冲突,模型越是强调语义对齐,就越容易牺牲视觉质量,这种内在限制逐渐成为生成模型走向更广泛应用的一道门槛。
在这样的背景下,清华大学段岳圻团队提出了《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》这一研究工作,从更底层的角度重新审视这一问题。
研究不再把 CFG 当作简单的参数调节手段,而是将整个生成过程看作一个动态系统,把语义偏差理解为需要被控制的误差,并引入控制理论来重新设计 guidance 机制。这种思路的变化,使得生成过程不再依赖反复试错,而是可以通过更稳定的方式逐步收敛到符合语义约束的结果。
这种改进在实际场景中的意义也很直观。当需要生成具有明确空间关系的画面时,模型能够更稳定地保持结构一致;当画面中包含文字时,内容更容易保持清晰和正确;在复杂场景中,多对象之间的关系也更不容易出现错乱。
用户不再需要通过大量尝试去碰运气,而更有可能在较少次数内得到符合预期的结果。这样的变化,正体现出生成模型从偶尔成功走向稳定可靠的关键一步,也让这项研究在当前发展阶段显得尤为重要。

论文地址:https://arxiv.org/pdf/2603.03281
在实验结果方面,研究人员首先关心的是,相比标准 CFG(Classifier-Free Guidance),性能提升是否全面且稳定。结论是肯定的,而且提升并不是集中在某一个指标上,而是体现在多个维度同时改善。
比如在图像质量指标 FID(Fréchet Inception Distance) 上,SMC-CFG 比标准 CFG 进一步下降了一小截,说明生成结果更接近真实图像分布。在语义对齐指标 CLIP 上,提升幅度虽然不算特别大,但表现很稳定,基本能够持续领先其他方法,这说明这种改进并不是靠某类样本上的偶然优势,而是真正增强了模型对文本语义的理解能力。
在人类偏好相关指标上,像 ImageReward、HPS、PickScore 等提升更明显,而且很多时候都处在所有方法里的最高水平。真正重要的是,SMC-CFG 不是只把某一个指标做高,而是在图像质量、语义对齐和主观偏好这些通常很难兼顾的方向上一起变好。
从跨模型的一致性来看,研究使用了 3 种不同规模的文生图模型,分别是中等规模的 SD3.5、较大规模的 Flux,以及超大规模的 Qwen-Image。实验中有一个很明显的现象,就是模型规模越大,SMC-CFG 的优势越清楚。

在较小模型上,这种优势更多体现为略优,而在更大模型上,它在多个指标上能够持续拉开差距。这说明,SMC-CFG 解决的并不只是一个局部调参问题,而更像是在处理模型规模增大后更容易出现的不稳定性问题。
研究还把它与 CFG-Zero* 和 Rectified-CFG++ 这些已经改进过的方法做了比较,结果显示,SMC-CFG 依然能够继续取得提升,而且这种优势不是某个指标上的局部突破,而更接近整体性的领先,这也说明它不是简单技巧,而是机制层面的改进。
高 guidance scale 下的表现,是整项研究最关键的结果之一。传统 CFG 的典型问题是,guidance scale 增大后,语义对齐通常会更强,但图像质量往往会明显下降,也就是模型越努力贴近文本,越容易把画面做坏。
实验显示,标准 CFG 随着 scale 提升,图像劣化会越来越明显,而 SMC-CFG 在同样条件下仍然能够继续增强语义信息,同时把图像质量维持在相对稳定的状态。这意味着它在一定程度上打破了语义准确性和图像质量之间那种经典的此消彼长关系。

与此同时,在复杂 prompt 下,传统方法容易出现空间关系错位、结构混乱、文字模糊或错误等问题,而 SMC-CFG 在空间关系、细节稳定性和文字清晰度上都更好,这说明它不仅分数更高,也确实提升了模型对复杂结构和关系的理解能力。
研究团队还做了消融实验,分析两个关键参数的作用。其中,λ 控制收敛方向,k 控制纠正力度。实验发现,λ 过小或过大都会让系统偏离更理想的稳定轨道,而 k 过小会让收敛变慢,语义表现偏弱,k 过大又会引发震荡,让画面显得不自然。
综合来看,最佳状态对应的是中等 λ 加上适中的 k,在这种组合下,系统能够同时实现稳定、快速和精准。更深一层地说,这部分结果说明 SMC-CFG 的优势不是偶然调参得到的,而是符合控制系统里很典型的规律,也就是稳定性和响应速度之间需要找到平衡。雷峰网(公众号:雷峰网)

在实验经过方面,研究人员并不是简单进行指标对比,而是围绕一个明确的核心假设展开,也就是 CFG 的问题本质上来源于线性控制方式本身,因此需要通过新的控制机制来验证是否能够系统性改进这一问题。
基于这一前提,整个实验设计围绕三个关键方向推进。首先是稳定性验证,研究人员通过在高 guidance scale 条件下进行测试,因为这一设置会放大 CFG 的不稳定问题,如果方法在这种情况下仍然保持稳定,就能够说明控制机制本身更加鲁棒。

其次是准确性验证,通过引入语义指标并结合复杂 prompt 场景,例如包含空间关系、多物体关系或细粒度描述的输入,来检验生成结果是否真正理解文本内容,而不是仅仅在简单场景下表现良好。
最后是对真实感的评估,通过 FID 和多种人类偏好相关指标来判断生成图像是否接近真实分布,同时是否符合人类审美和直觉判断。从整体逻辑来看,这一系列实验并不是在比较不同模型谁更强,而是在验证一种控制系统是否能够更有效地引导生成过程。

在模型选择上,研究团队刻意选用了 SD3.5、Flux 和 Qwen-Image 三种具有明显差异的模型。这些模型不仅在参数规模上从中等到超大存在明显跨度,而且在具体架构上也有所不同,但都属于 flow-matching diffusion 这一技术路线。
这样的选择使实验能够覆盖不同复杂度和不同表达能力的生成系统,从而检验方法是否具备跨模型的通用性。如果一种方法只在单一模型上有效,很可能只是针对特定结构进行了适配,而在多模型上都能保持提升,则更能说明其改进具有普适意义。
在评价体系的设计上,研究人员采用了分层结构来避免单一指标带来的偏差。第一层关注分布层面,通过 FID 衡量生成图像与真实数据分布之间的距离,从而反映整体图像质量和真实性。
第二层关注语义层面,通过 CLIP 等指标评估图像内容与文本之间的一致性,这一层主要反映模型是否正确理解输入语义。第三层则引入人类偏好相关指标,用于评估生成结果在视觉上是否自然、是否具有审美价值以及是否符合人类直觉。
这三层从统计分布、语义匹配和主观感受三个角度共同约束模型表现,可以有效避免模型在某一指标上表现突出但整体效果不佳的问题。

研究团队还通过消融实验对方法内部机制进行了进一步分析。由于 SMC-CFG 引入了滑模面作为控制目标,并通过 switching 控制实现非线性反馈,这些设计都可能影响系统的稳定性和收敛行为,因此需要单独验证各个组成部分的作用。
通过调整关键参数,可以观察到系统在收敛速度、稳定性以及生成效果之间的变化关系,从而判断性能提升是否确实来源于控制机制本身,而不是偶然的参数组合。这一步对于证明方法的可靠性非常关键,因为只有在不同设置下仍然表现出一致规律,才能说明设计具有理论支撑。
综合来看,这一系列实验构成了一个清晰的验证逻辑,也就是从线性控制到非线性控制的转变所带来的影响。传统 CFG 作为线性控制方式,在复杂生成过程中容易引发不稳定行为,而引入滑模控制后,系统能够更稳定地收敛到目标状态。
在这种更稳定的动态过程中,语义信息能够更有效地注入,同时图像质量不会受到明显破坏,因此最终表现为语义对齐更好且图像质量更高。整个实验过程实际上是在逐步验证这一因果链条,从而证明新的控制机制确实能够从根本上改进生成过程。
这项研究并不只是说明研究提出了一种更强的方法,更重要的是,它改变了人们理解图像生成模型的方式。过去,CFG 更像是一种经验性的调节手段,很多时候只能靠不断试参数来找平衡,知道它有用,但很难解释为什么有时有效、有时会失控。雷峰网
研究团队把这个问题提升成了控制问题,也就是把条件预测和无条件预测之间的差异看成误差信号,把 guidance 看成控制输入,把 diffusion flow 看成一个动态系统。这样一来,后续研究就不再只是反复调 guidance,而是可以像设计控制系统一样,去分析稳定性、收敛性和鲁棒性,从经验技巧走向系统理论。
研究还有一个很重要的意义,就是把 CFG 为什么会失败这件事讲清楚了。很多人都知道,guidance scale 一旦调高,模型虽然会更听 prompt 的话,但图像也更容易崩,出现颜色不自然、结构扭曲、细节变坏的问题。
研究人员说明,根本原因在于 CFG 本质上是在做线性误差放大,而 diffusion 本身却是一个非线性系统,所以一旦放大过头,就容易出现振荡和发散。也正因为如此,研究团队引入了滑模控制这种非线性控制方法,让系统在复杂情况下也能被拉回更稳定的轨道。
这个突破的意义在于,它说明 diffusion guidance 本质上不是一个简单调权重的问题,而是一个需要用非线性控制来处理的问题。
对普通人来说,这项研究的影响也很直接。用户在使用 AI 绘图工具时,最关心的不是背后的理论,而是输入一句话之后,结果能不能稳定、能不能少翻车、能不能更接近自己的想法。更稳定的 guidance 机制意味着,以后生成复杂画面时,空间关系错乱、文字错误、结构崩坏这些问题会更少,用户不需要为了得到一张能用的图反复尝试很多次。
对于设计师、自媒体创作者、电商运营等人来说,这会直接降低试错成本,提高出图效率。更长远地看,这项研究的价值就在于,它推动文生图模型从偶尔惊艳但不稳定,逐渐走向真正可靠、可以进入日常工作和生活的工具。
论文一作为汪晗阳,现为清华大学电子工程系硕士一年级学生,本科毕业于清华大学计算机科学与技术系,2025 年获得工学学士学位,师从段岳圻,研究方向集中在 3D 计算机视觉、视频生成和 AIGC。
相关学术成果发表于 CVPR、ICCV、NeurIPS、ECCV、TIP 和 TPAMI 等重要会议与期刊,内容涉及稀疏视角 3D 重建、3D 生成中的人类偏好对齐、语言嵌入场景重建、视频生成测试时扩展、物理属性学习,以及从单张图像生成高质量 3D 网格等方向。
论文的通讯作者为段岳圻,他是清华大学电子工程系教研系列副教授,博士生导师。研究方向为计算机视觉、模式识别。2014 年和 2019 年在清华大学自动化系分别获得工学学士和博士学位,2019 至 2021 年在斯坦福大学计算机系担任博士后研究员,合作导师为美国三院院士Leonidas J. Guibas教授。
他以第一/通讯作者发表计算机视觉与模式识别领域 IEEE汇 刊和 CCF-A 类会议论文 40 余篇,以通讯作者获 2024 年 ICME 最佳论文提名。
段岳圻入选中国科协青年人才托举工程项目,获 2025 年中国电子学会技术发明一等奖、2024 年中国电子学会自然科学一等奖、2024 年公安部科学技术一等奖。
担任IEEE TCSVT期刊编委,CVPR、ICCV、ECCV、ICML、ICLR等国际会议领域主席,中国计算机学会计算机视觉、人工智能与模式识别、多媒体技术专委会执行委员。