中科大与智象未来提出PS-SR：伪单步视频超分方法，兼顾速度与细节

2026/06/12 14:28阅读量 2

中国科学技术大学与智象未来研究团队提出PS-SR视频超分辨率方法，采用“强模型打底、轻模型精修”的伪单步扩散框架，base model恢复全局结构，轻量draft model多次细化补充高频细节，并通过频域更新约束内容偏移。PS-SR在接近单步模型速度的同时，达到了多步扩散模型的细节表现，在合成与真实低质视频上均取得领先的画质与时间一致性，论文被CVPR 2026接收。

事件概述

中国科学技术大学与智象未来研究团队在CVPR 2026上提出PS-SR（Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion），旨在解决视频超分中速度与画质难以兼顾的痛点。传统单步扩散模型速度快但细节保守，多步扩散模型细节丰富但推理成本高，且帧间闪烁、结构偏移等问题突出。PS-SR通过伪单步框架，在保证速度的同时提升细节真实性和时间稳定性。

核心方法

框架设计：PS-SR包含一个强大的base model（基于Wan2.1视频扩散模型，经LoRA微调）和一个轻量化的draft model（剪枝部分DiT block）。base model仅执行一次推理，负责恢复全局结构（画面布局、主体形状、低频语义）；draft model则执行多次（实验中为3次）轻量细化，补充边缘、纹理等高频细节。
特征融合：draft model通过对应层特征拼接接收base model的中间特征，再经FC层恢复维度，使剪枝后的轻量模型仍能获得强模型的表达能力。
频域更新：每轮draft model细化后，在RGB→YUV像素空间中对亮度通道进行处理：保留上一轮结果的低频内容（整体结构），仅补充当前预测的高频纹理。这一机制有效防止语义漂移，让纹理增强不破坏主体形状。
训练策略：base model使用VSD约束、对抗训练、像素监督及patch训练，目标是在单步中高质量恢复全局结构；draft model使用L2 loss + pixel loss，侧重高频细节恢复，降低训练复杂度。

实验结果

画质与速度：PS-SR在合成数据集（UDM10、SPMCS、YouHQ40）和真实低质视频集（VideoLQ）上，重建指标（PSNR等）与感知指标均优于STAR、SeedVR等对比方法。推理耗时接近单步方法（1次base model + 3次draft model），远低于多步扩散方法。
时间一致性：帧间闪烁减少，运动区域更平滑，基础视频扩散模型的motion prior得到有效保留。
消融分析：去除VSD或对抗损失后细节真实感下降；去除频域更新后结构偏移风险增加。完整PS-SR在细节、稳定性、输入一致性之间取得最佳平衡。
超参设置：采样步数T=4，细化强度α=0.6，draft model剪枝20个DiT block，以兼顾画质与速度。

值得关注

PS-SR的价值在于提供了一种接近实际部署的视频增强方案：强模型负责关键一步的结构重建，轻量模型反复修补细节，频域约束防止内容漂移。该方法可应用于互联网低清视频增强、老视频修复、监控视频清晰化、压缩视频修复等场景，其“强模型+轻模型协作”与频域约束思路也可迁移至视频去噪、去模糊等任务。

项目地址：https://waq2001.github.io/PS-SR-page/

阅读原文详情

事件概述

核心方法

实验结果

值得关注

准备好启动您的定制项目了吗？