清华段岳圻团队提出 CFG-Ctrl：用控制理论重构文生图引导机制

2026/04/22 14:57阅读量 2

清华大学段岳圻团队在 CVPR 2026 提出 CFG-Ctrl，将扩散模型的 Classifier-Free Guidance (CFG) 从经验性参数调节升级为基于滑模控制的动态系统。该方法有效解决了传统 CFG 在高引导尺度下语义对齐与图像质量相互冲突的难题，显著提升了复杂场景下的空间关系、文字生成及多对象稳定性。实验表明，该技术在 SD3.5、Flux 及 Qwen-Image 等多规模模型上均表现出跨架构的通用性和鲁棒性。

事件概述

清华大学段岳圻团队提出《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》研究，旨在解决文生图模型中“调参”与“控制”的矛盾。传统方法依赖线性误差放大来增强文本对齐，但在高 guidance scale 下易导致图像结构扭曲、颜色异常等不稳定现象。该研究引入控制理论，将生成过程视为动态系统，利用滑模控制（Sliding Mode Control）替代传统的线性引导机制，实现更稳定、精准的收敛。

核心创新与方法论

非线性控制机制：不再将 CFG 视为简单的权重调节，而是将条件预测与无条件预测的差异定义为误差信号，通过 switching 控制实现非线性反馈，防止系统在复杂约束下发生振荡或发散。
关键参数设计：
- λ (Lambda)：控制收敛方向，需保持适中以避免偏离理想轨道。
- k：控制纠正力度，过小导致收敛慢，过大引发画面震荡。
- 最佳状态为中等 λ 配合适中 k，平衡了系统的稳定性与响应速度。

实验验证与性能表现

研究团队在 SD3.5、Flux 和 Qwen-Image 三种不同规模的 Flow-Matching 扩散模型上进行了广泛测试，结果显示 SMC-CFG（即 CFG-Ctrl 的实现形式）具有显著的跨模型优势：

高 Scale 稳定性：在提升 guidance scale 时，传统 CFG 的图像质量急剧下降，而 SMC-CFG 能在增强语义信息的同时维持图像质量，打破了“语义越强画质越差”的经典瓶颈。
综合指标提升：
- FID (Fréchet Inception Distance)：数值进一步降低，表明生成分布更接近真实数据。
- CLIP Score：语义对齐能力持续领先且表现稳定。
- 人类偏好指标：在 ImageReward、HPS、PickScore 等主观评价中达到最高水平。
复杂场景表现：在处理包含明确空间关系（如人物左、动物右）、多物体交互及清晰文字生成的复杂 Prompt 时，SMC-CFG 显著减少了位置错乱、文字变形和结构崩坏问题。
消融实验结论：验证了滑模面作为控制目标的有效性，证明性能提升源于控制机制的理论改进，而非偶然参数组合。

行业意义

该研究标志着文生图技术从“经验试错”向“系统控制”的方法论升级。通过将扩散引导机制纳入控制理论框架，不仅解释了传统 CFG 失效的根本原因（线性控制无法适配非线性扩散系统），更为未来构建高可靠性、低试错成本的生成式 AI 工具提供了理论基础。

阅读原文详情

事件概述

核心创新与方法论

实验验证与性能表现

行业意义

准备好启动您的定制项目了吗？