国产算力新突破:SLAI基于昇腾910C集群完成DeepSeek-V4-Pro全参数后训练
2026/05/29 16:13阅读量 1
深圳河套学院联合哈尔滨工业大学(深圳)、华为等团队,基于千卡级昇腾910C国产算力集群,成功完成DeepSeek-V4-Pro(1.6万亿参数MoE模型)全参数后训练。训练稳定运行1500余步,MFU超30%,关键算子效率提升14%,为业界首个由第三方机构实现的该模型全参数后训练工程实践。
事件概述
深圳河套学院AI训练平台项目团队联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为GTS、计算产品线、2012实验室及深智城AI算力平台,基于昇腾910C国产算力集群,用时1个月完成DeepSeek-V4-Pro全参数续训练/SFT稳定运行。该项目为公开可查范围内首个由第三方机构基于国产算力集群完成的DeepSeek-V4-Pro全参数后训练工程实践。
核心进展
- 训练规模:千卡级昇腾910C集群,单步耗时约27秒,稳定运行1500+步(skipped iterations = 0,NaN iterations = 0)。
- 效率指标:模型算力利用率(MFU)约30%,在昇腾超节点上最终稳定至34.9%;关键训练算子计算效率较初始版本提升约14%。
- 模型:DeepSeek-V4-Pro,1.6万亿参数MoE开源模型,采用CSA+HCA混合稀疏注意力、mHC连接等机制。
- 同步进展:DeepSeek-V4-Flash的全参数续训练与SFT链路也已打通。
关键技术突破
- 分布式显存承载:实现数据并行、张量并行、流水并行与专家并行协同工作,解决万亿参数模型的显存分配与动态调度问题。
- 稀疏通信优化:针对混合稀疏注意力、MoE路由、归一化、矩阵计算等算子深度适配,避免专家负载失衡和跨节点通信风暴。
- 长稳监控体系:建立Loss曲线、梯度范数、专家负载、显存占用等可视化监控,实现异常自动恢复,全程未出现Loss失控或NaN值。
实战验证:数学建模能力跃升
团队构建3000条高质量SFT样本(覆盖4类目标任务、3种问题形态),对DeepSeek-V4进行后训练。训练曲线显示LM loss收敛至0.2056,MTP-1 loss收敛至0.2538。Benchmark中ORGEval WL提升超过5个百分点,证明国产算力全参数后训练能显著增强模型复杂推理能力。
人才培养模式
本次攻关将学生嵌入真实训练场景,已培养42名学生,形成青年教师指导、博士生核心攻坚、工程团队支撑的协同培养机制。学生从调用模型走向理解并参与训练大模型,掌握全链路系统性认识和全过程实操能力。
未来展望
下一阶段将重点推进:
- 提升训练效率(MFU),降低万亿模型训练成本;
- 支撑512K至1M超长上下文训练;
- 突破强化学习后训练闭环,构建Agentic RL链路(rollout生成→工具执行→reward/verifier→策略更新→评测反馈)。
项目将分阶段开源训练配置、评测脚本、合成数据、技术报告及相关模型与框架能力,并将真实任务沉淀为课程案例与实训资源。
