DeepSeek V4发布后,大模型竞争焦点转向AI训练基础设施

2026/05/09 16:45阅读量 2

DeepSeek V4以1.6T参数全量开源,并引入Engram和mHC等创新设计以降低成本。OpenAI核心技术人士指出,当前模型竞争关键在于AI Infra的正确性和迭代速度。百度智能云百舸团队开源全模态训练框架LoongForge,针对多模态训练中的模块大小差异、数据不均和国产芯片兼容三大难题提出优化方案,可将训练效率提升近50%,显著降低算力消耗。

事件概述

4月24日,DeepSeek发布V4模型,1.6T参数、MIT协议全量开源、支持百万级上下文。其创新采用Engram条件记忆模块和mHC(流形约束超连接)两项全新底层设计,核心目标是降低训练和推理成本。这标志着模型创新与基础设施创新的深度绑定。

核心信息

  • 翁家翌(OpenAI核心基础设施团队)观点:当前模型竞争的关键不是Idea本身,而是AI Infra的正确性与单位时间内的迭代次数;可被快速验证的Idea才有价值。
  • 百度智能云百舸团队开源LoongForge:一个覆盖纯文字(LLM)、视觉语言(VLM)、机器人控制(VLA)、文生图(Diffusion)等全模态的训练框架,以Apache 2.0协议完全开源。
  • LoongForge主要解决三大传统框架痛点
    1. 多模态模块参数量差异大:传统框架“一刀切”并行策略导致小模块闲置、大模块过载。LoongForge将视觉编码器和语言模型解耦,各自独立配置最优并行方案。
    2. 数据不均匀导致GPU等待:计算量差异巨大的样本(如图片vs长视频)共享同一批GPU,造成空闲。LoongForge引入自动负载均衡机制,按计算量智能分配样本,将千卡规模扩展效率提升至90%以上(行业60-70%)。
    3. 国产芯片兼容困难:传统框架深度绑定NVIDIA GPU,换芯片需重写两套代码。LoongForge通过XPU_Plugin硬件接入层,同一份代码只需修改一个环境变量即可在GPU和昆仑芯间切换,降低了NVIDIA生态壁垒。
  • LoongForge其他关键能力
    • MoE模型训练优化:通过计算与通信重叠组合拳,解决长序列时通信慢和显存爆炸的矛盾。
    • 稀疏注意力架构优化:针对DeepSeek V3.2的稀疏注意力,进行算子融合、索引优化、KV布局优化、序列拼接等底层算子级优化。
    • 新模型快速接入:通过标准化三层抽象和YAML配置文件驱动,将新模型接入时间从数周压缩至数天。
    • 具身智能(VLA模型)实测:训练PI0.5模型,相比社区框架速度提升49%。

值得关注

  • 算力成为核心竞争力:同样算力下,老框架每日可跑2个实验,LoongForge每日可达4-6个实验。月积累60 vs 180个实验,三个月即形成代差。
  • 开源战略意图:百度智能云以Apache 2.0协议开源LoongForge,旨在吸引开发者围绕昆仑芯构建生态,类比英伟达CUDA锁定开发者路线。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。