清华段岳圻团队提出 CFG-Ctrl:用控制理论重构文生图引导机制
2026/04/22 14:57阅读量 2
清华大学段岳圻团队在 CVPR 2026 提出 CFG-Ctrl,将扩散模型的 Classifier-Free Guidance (CFG) 从经验性参数调节升级为基于滑模控制的动态系统。该方法有效解决了传统 CFG 在高引导尺度下语义对齐与图像质量相互冲突的难题,显著提升了复杂场景下的空间关系、文字生成及多对象稳定性。实验表明,该技术在 SD3.5、Flux 及 Qwen-Image 等多规模模型上均表现出跨架构的通用性和鲁棒性。
事件概述
清华大学段岳圻团队提出《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》研究,旨在解决文生图模型中“调参”与“控制”的矛盾。传统方法依赖线性误差放大来增强文本对齐,但在高 guidance scale 下易导致图像结构扭曲、颜色异常等不稳定现象。该研究引入控制理论,将生成过程视为动态系统,利用滑模控制(Sliding Mode Control)替代传统的线性引导机制,实现更稳定、精准的收敛。
核心创新与方法论
- 非线性控制机制:不再将 CFG 视为简单的权重调节,而是将条件预测与无条件预测的差异定义为误差信号,通过 switching 控制实现非线性反馈,防止系统在复杂约束下发生振荡或发散。
- 关键参数设计:
- λ (Lambda):控制收敛方向,需保持适中以避免偏离理想轨道。
- k:控制纠正力度,过小导致收敛慢,过大引发画面震荡。
- 最佳状态为中等 λ 配合适中 k,平衡了系统的稳定性与响应速度。
实验验证与性能表现
研究团队在 SD3.5、Flux 和 Qwen-Image 三种不同规模的 Flow-Matching 扩散模型上进行了广泛测试,结果显示 SMC-CFG(即 CFG-Ctrl 的实现形式)具有显著的跨模型优势:
- 高 Scale 稳定性:在提升 guidance scale 时,传统 CFG 的图像质量急剧下降,而 SMC-CFG 能在增强语义信息的同时维持图像质量,打破了“语义越强画质越差”的经典瓶颈。
- 综合指标提升:
- FID (Fréchet Inception Distance):数值进一步降低,表明生成分布更接近真实数据。
- CLIP Score:语义对齐能力持续领先且表现稳定。
- 人类偏好指标:在 ImageReward、HPS、PickScore 等主观评价中达到最高水平。
- 复杂场景表现:在处理包含明确空间关系(如人物左、动物右)、多物体交互及清晰文字生成的复杂 Prompt 时,SMC-CFG 显著减少了位置错乱、文字变形和结构崩坏问题。
- 消融实验结论:验证了滑模面作为控制目标的有效性,证明性能提升源于控制机制的理论改进,而非偶然参数组合。
行业意义
该研究标志着文生图技术从“经验试错”向“系统控制”的方法论升级。通过将扩散引导机制纳入控制理论框架,不仅解释了传统 CFG 失效的根本原因(线性控制无法适配非线性扩散系统),更为未来构建高可靠性、低试错成本的生成式 AI 工具提供了理论基础。
