清华 UDS 框架:大模型微调算力减半,在线样本筛选获 ICML 2026 认可
2026/06/29 13:47阅读量 2
清华大学自动化系在 ICML 2026 提出在线样本筛选框架 UDS,通过复用前向传播 logits 矩阵同时评估样本重要性和多样性,无需额外计算即可过滤低质量样本。实验表明,该方法在不损失模型精度的前提下可将微调算力消耗降低约 50%,在 Qwen-2.5-7B 等模型上多项基准全面超越此前最优方案,为行业提供了轻量化的微调新路径。
事件概述
清华大学自动化系团队在 ICML 2026 上提出在线样本筛选框架 UDS,旨在解决大模型监督微调(SFT)阶段全量数据投喂带来的算力浪费和过拟合问题。该技术无需遍历全部训练数据集,仅通过前向传播生成的 logits 矩阵同步评估样本的效用与多样性,自动过滤重复、低质量样本,实现算力成本近乎减半的同时提升训练吞吐量。
核心信息
- 技术创新:UDS 复用前向传播的 logits 矩阵,计算核范数量化样本内部信息丰富度(重要性分数),同时通过低维随机投影压缩特征并结合缓存缓冲区计算样本与历史数据的距离(多样性分数)。两套分数加权融合后筛选最优样本,无需外部数据集或第三方模型,内存占用极低。
- 实验结果:
- 在 Qwen-2.5-7B 上,MMLU 准确率达 63.34%,比此前最优方案 GREATS 提升 5.15 个百分点;在 ScienceQA、GSM8K、HumanEval 上均全面领先。
- 在 Llama-3.1-8B 上也取得一致优势,且适应不同批次大小、LoRA/全参微调、长上下文推理、分布外泛化等多种工况。
- 对比离线筛选算法 FisherSFT,在同等样本选取比例下 UDS 全面领先,证明在线动态筛选更贴合实时训练需求。
- 工程意义:国内大模型训练整体算力有效利用率不足五成,全量训练不仅推高 GPU 采购和云算力成本,还易引发过拟合和偏见。UDS 无底层硬件改造需求,可直接接入现有训练流水线,显著降低垂直领域(政务、制造、金融等)定制模型的落地门槛,尤其利好算力有限的科研团队和初创公司。
值得关注
UDS 标志着 SFT 从“数据堆砌”转向“精准选样”,为行业提供了一套兼顾效率、精度和轻量化的在线筛选框架。随着该技术在开源基座(通义千问、Llama 系列)上逐步落地,有望缓解全行业算力成本压力,加速 AI 在千行百业的规模化应用。
