中科大与智象未来提出PS-SR:伪单步视频超分方法,兼顾速度与细节

2026/06/12 14:28阅读量 2

中国科学技术大学与智象未来研究团队提出PS-SR视频超分辨率方法,采用“强模型打底、轻模型精修”的伪单步扩散框架,base model恢复全局结构,轻量draft model多次细化补充高频细节,并通过频域更新约束内容偏移。PS-SR在接近单步模型速度的同时,达到了多步扩散模型的细节表现,在合成与真实低质视频上均取得领先的画质与时间一致性,论文被CVPR 2026接收。

事件概述

中国科学技术大学与智象未来研究团队在CVPR 2026上提出PS-SR(Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion),旨在解决视频超分中速度与画质难以兼顾的痛点。传统单步扩散模型速度快但细节保守,多步扩散模型细节丰富但推理成本高,且帧间闪烁、结构偏移等问题突出。PS-SR通过伪单步框架,在保证速度的同时提升细节真实性和时间稳定性。

核心方法

  • 框架设计:PS-SR包含一个强大的base model(基于Wan2.1视频扩散模型,经LoRA微调)和一个轻量化的draft model(剪枝部分DiT block)。base model仅执行一次推理,负责恢复全局结构(画面布局、主体形状、低频语义);draft model则执行多次(实验中为3次)轻量细化,补充边缘、纹理等高频细节。
  • 特征融合:draft model通过对应层特征拼接接收base model的中间特征,再经FC层恢复维度,使剪枝后的轻量模型仍能获得强模型的表达能力。
  • 频域更新:每轮draft model细化后,在RGB→YUV像素空间中对亮度通道进行处理:保留上一轮结果的低频内容(整体结构),仅补充当前预测的高频纹理。这一机制有效防止语义漂移,让纹理增强不破坏主体形状。
  • 训练策略:base model使用VSD约束、对抗训练、像素监督及patch训练,目标是在单步中高质量恢复全局结构;draft model使用L2 loss + pixel loss,侧重高频细节恢复,降低训练复杂度。

实验结果

  • 画质与速度:PS-SR在合成数据集(UDM10、SPMCS、YouHQ40)和真实低质视频集(VideoLQ)上,重建指标(PSNR等)与感知指标均优于STAR、SeedVR等对比方法。推理耗时接近单步方法(1次base model + 3次draft model),远低于多步扩散方法。
  • 时间一致性:帧间闪烁减少,运动区域更平滑,基础视频扩散模型的motion prior得到有效保留。
  • 消融分析:去除VSD或对抗损失后细节真实感下降;去除频域更新后结构偏移风险增加。完整PS-SR在细节、稳定性、输入一致性之间取得最佳平衡。
  • 超参设置:采样步数T=4,细化强度α=0.6,draft model剪枝20个DiT block,以兼顾画质与速度。

值得关注

PS-SR的价值在于提供了一种接近实际部署的视频增强方案:强模型负责关键一步的结构重建,轻量模型反复修补细节,频域约束防止内容漂移。该方法可应用于互联网低清视频增强、老视频修复、监控视频清晰化、压缩视频修复等场景,其“强模型+轻模型协作”与频域约束思路也可迁移至视频去噪、去模糊等任务。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。