DeepSeek V4发布后，大模型竞争焦点转向AI训练基础设施

2026/05/09 16:45阅读量 2

DeepSeek V4以1.6T参数全量开源，并引入Engram和mHC等创新设计以降低成本。OpenAI核心技术人士指出，当前模型竞争关键在于AI Infra的正确性和迭代速度。百度智能云百舸团队开源全模态训练框架LoongForge，针对多模态训练中的模块大小差异、数据不均和国产芯片兼容三大难题提出优化方案，可将训练效率提升近50%，显著降低算力消耗。

事件概述

4月24日，DeepSeek发布V4模型，1.6T参数、MIT协议全量开源、支持百万级上下文。其创新采用Engram条件记忆模块和mHC（流形约束超连接）两项全新底层设计，核心目标是降低训练和推理成本。这标志着模型创新与基础设施创新的深度绑定。

核心信息

翁家翌（OpenAI核心基础设施团队）观点：当前模型竞争的关键不是Idea本身，而是AI Infra的正确性与单位时间内的迭代次数；可被快速验证的Idea才有价值。
百度智能云百舸团队开源LoongForge：一个覆盖纯文字（LLM）、视觉语言（VLM）、机器人控制（VLA）、文生图（Diffusion）等全模态的训练框架，以Apache 2.0协议完全开源。
LoongForge主要解决三大传统框架痛点：
1. 多模态模块参数量差异大：传统框架“一刀切”并行策略导致小模块闲置、大模块过载。LoongForge将视觉编码器和语言模型解耦，各自独立配置最优并行方案。
2. 数据不均匀导致GPU等待：计算量差异巨大的样本（如图片vs长视频）共享同一批GPU，造成空闲。LoongForge引入自动负载均衡机制，按计算量智能分配样本，将千卡规模扩展效率提升至90%以上（行业60-70%）。
3. 国产芯片兼容困难：传统框架深度绑定NVIDIA GPU，换芯片需重写两套代码。LoongForge通过XPU_Plugin硬件接入层，同一份代码只需修改一个环境变量即可在GPU和昆仑芯间切换，降低了NVIDIA生态壁垒。
LoongForge其他关键能力：
- MoE模型训练优化：通过计算与通信重叠组合拳，解决长序列时通信慢和显存爆炸的矛盾。
- 稀疏注意力架构优化：针对DeepSeek V3.2的稀疏注意力，进行算子融合、索引优化、KV布局优化、序列拼接等底层算子级优化。
- 新模型快速接入：通过标准化三层抽象和YAML配置文件驱动，将新模型接入时间从数周压缩至数天。
- 具身智能（VLA模型）实测：训练PI0.5模型，相比社区框架速度提升49%。

值得关注

算力成为核心竞争力：同样算力下，老框架每日可跑2个实验，LoongForge每日可达4-6个实验。月积累60 vs 180个实验，三个月即形成代差。
开源战略意图：百度智能云以Apache 2.0协议开源LoongForge，旨在吸引开发者围绕昆仑芯构建生态，类比英伟达CUDA锁定开发者路线。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？