DeepSeek V4首发适配背后：昇腾为何放弃CUDA兼容层，坚持自主生态重构

2026/04/28 14:16阅读量 7

华为昇腾在DeepSeek V4首发适配中，选择放弃构建CUDA兼容层的捷径，转而通过底层架构自研建立独立生态。这一策略旨在解决大模型时代访存压力、低精度计算等核心瓶颈，避免技术演进受制于既有标准。目前，昇腾950芯片已实现全系列适配，推理时延低至10~20ms，并通过引入Agent与Skill机制大幅缩短开发周期。

事件概述

在DeepSeek V4发布当天，华为昇腾实现了该模型的全系列适配。此次适配不仅是性能层面的突破，更折射出昇腾在AI基础设施领域的战略选择：放弃依赖CUDA兼容层，转而通过底层架构重构来建立自主可控的生态体系。

核心信息

1. 战略转向：从“修补”到“重构”

背景挑战：随着大模型规模扩大及MoE等复杂架构涌现，传统软件优化和算子补丁无法解决长序列访存压力、低精度支持缺失等根本问题。
决策逻辑：华为张良指出，“如果底层结构不改变，上层生态就很难真正建立”。自2025年起，昇腾团队决定不再围绕局部问题修补，而是回归底层重新设计。
架构调整：最新一代昇腾950芯片采用了更接近主流并行计算范式的编程模型，引入细粒度访存机制以减少无效带宽消耗，并提前支持FP8等低精度计算以提升吞吐能力。

2. 拒绝CUDA兼容层的原因

自主权缺失：基于CUDA构建兼容层虽然能降低迁移门槛，但会导致核心体系依附于他人标准，丧失技术演进主动权。一旦面临危机或框架变更，自身特性将难以落地。
长期竞争力：若系统能力被限定在特定场景或既有框架内，将无法支撑多样化应用的持续增长。昇腾选择了一条更复杂但更具独立性的路径：底层自研（虚拟指令集、编译器、运行时），上层对齐主流（适配PyTorch等框架）。

3. 生态建设成果与指标

开源协同：昇腾从单纯的插件接入转向深度参与开源社区，已在Triton中实现后端支持，并在PyTorch Foundation体系中建立持续集成流程。
量化指标：对开源软件的支持能力被细化为特性支持率、模型适配率、CI覆盖率等指标，要求必须维持在95%以上。
性能表现：DeepSeek V4在昇腾950超节点上的推理时延低至10~20ms；通过PyPTO编程范式，算子开发周期缩短至天级。

4. Agent新范式与效率提升

开发模式变革：引入Agent作为新的执行主体，将算子开发从“手写调试”转变为“意图描述”，自动完成环境配置与代码生成。
全流程整合：Agent覆盖模型检索、适配、量化、迁移、优化与部署全链路，目标是将原本以周为单位的流程压缩至“一分钟找模型、一小时验证、一天部署”。
Skill标准化：将专家经验沉淀为标准化的Skill单元，供Agent调用组合，使开发者无需从零构建流程，仅需定义目标与约束。

值得关注

过渡性特征：当前Agent在处理深层次复杂问题时仍需工程师深度参与，呈现出“缓冲”角色，其能否成为长期稳定范式取决于Skill沉淀速度与底层差异收敛程度。
未来挑战：在主流框架快速迭代的背景下，新体系能否长期保持同步并建立自身影响力，仍取决于持续的工程投入与社区协同。

阅读原文详情