中国AI算力反击战

文章回顾了中国在芯片禁令下面临的困境,并指出DeepSeek等公司正通过算法优化和国产芯片方案实现算力独立。尽管英伟达CUDA生态壁垒深厚,但中国AI企业已转向混合专家模型以降低训练成本,并成功利用龙芯、华为昇腾等国产芯片完成大模型全流程训练。面对美国电力短缺和制裁压力,中国凭借能源优势和Token出海策略,正在构建一个不依赖外部技术的独立AI产业生态。

八年前,中兴通讯心脏骤停。 2018年4月16日,美国商务部工业与安全局的一纸禁令,让中兴通讯这家拥有8万名员工、年营收超千亿的全球第四大通信设备商,在一夜之间停摆。禁令内容很简单:未来七年,禁止任何美国公司向中兴出售零部件、商品、软件和技术。 没有了高通的芯片,基站停产。没有了谷歌的安卓授权,手机也没有能用的系统了。23天后,中兴发布公告,称公司主要经营活动已无法进行。 不过中兴最终活了下来,但代价是14亿美元。 10亿美元罚款,一次性付清;4亿美元保证金,存入美国银行的托管账户。此外,全部高管换血,接受美方合规监督团队进驻。2018年全年,中兴净亏损70亿元人民币,营收同比暴跌21.4%。 时任中兴董事长殷一民在内部信中写道:「我们身处在一个复杂的、高度依赖全球供应链的产业中。」这句话,在当时听来,是反思,也是无奈。 八年后,2026年2月26日,中国AI独角兽DeepSeek宣布,其即将发布的V4多模态大模型,将优先与国产芯片厂商深度合作,首次实现从预训练到精调的全流程非英伟达方案。 翻译一下就是:我们不用英伟达了。 消息一出,市场的第一反应是质疑。英伟达在全球AI训练芯片市场的份额超过90%,放弃它,这在商业上合理吗? 但DeepSeek的选择背后,藏着一个比商业逻辑更大的问题:中国AI,到底需要一场怎样的算力独立? 被卡脖子的到底是什么 很多人以为,芯片禁令卡住的是硬件。但真正让中国AI公司感到窒息的,是一个叫CUDA的东西。 CUDA,全称Compute Unified Device Architecture,是英伟达在2006年推出的一套并行计算平台和编程模型。它允许开发者直接调用英伟达GPU的算力,来加速各种复杂的计算任务。 在AI时代到来之前,这只是一个属于少数极客的工具。但当深度学习的浪潮袭来,CUDA变成了整个AI产业的地基。 AI大模型的训练,本质上就是海量的矩阵运算。而这恰恰是GPU最擅长的工作。 英伟达凭借提前十几年的布局,用CUDA为全球的AI开发者搭建了一整套从底层硬件到上层应用的完整工具链。今天,全球所有主流的AI框架,从谷歌的TensorFlow到Meta的PyTorch,底层都与CUDA深度绑定。 一个AI专业的博士生,从入学第一天起,就是在CUDA的环境里学习、编程、做实验。他写的每一行代码,都在加固英伟达的护城河。 截至2025年,CUDA生态已经拥有超过450万开发者,覆盖了3000多个GPU加速应用,全球超过4万家公司在使用CUDA。这个数字意味着全球90%以上的AI开发者,都被绑定在英伟达的生态里。 CUDA的可怕之处在于,它是一个飞轮。越多的开发者使用,就会产生越多的工具、库和代码,生态就越繁荣;生态越繁荣,就越能吸引更多的开发者加入。这个飞轮一旦转起来,就几乎无法被撼动。 结果就是,英伟达卖给你最贵的铲子,还定义了唯一的挖矿姿势。你想换一把铲子?可以。但你得先把过去十几年里,全球几十万最聪明的大脑在这个姿势下积累的所有经验、工具和代码,全部重写一遍。 这个成本,谁来付? 所以,当2022年10月7日,BIS第一轮管制落地,限制英伟达A100和H100对华出口时,中国的AI公司们,第一次集体感受到了中兴式的窒息感。英伟达随后推出了「中国特供版」A800和H800,降低了芯片间的互联带宽,勉强维持供应。 但仅仅一年后,2023年10月17日,第二轮管制再次收紧,A800和H800也被禁,13家中国公司被列入实体清单。英伟达不得不再推出进一步阉割的H20。到2024年12月,拜登政府任期内的最后一轮管制落地,连H20的出口都被严格限制。 三轮管制,层层加码。 但这一次,故事的走向,和当年的中兴完全不同。 一场非对称的突围 禁令之下,所有人都以为,中国AI的大模型之梦会就此终结。 他们都错了。面对封锁,中国公司并没有选择正面硬刚,而是开始了一场突围。这场突围的第一个战场,不在芯片,而在算法。 2024年底到2025年,中国的AI公司们集体转向了一个技术方向:混合专家模型(MoE)。 简单来说,就是把一个巨大的模型拆分成很多个小专家,处理任务时只激活其中最相关的几个,而不是让整个模型都动起来。 DeepSeek的V3就是这个思路的典型代表。它拥有6710亿个参数,但每次推理只激活其中的370亿个,仅占总量的5.5%。训练成本方面,它使用了2048块英伟达H800 GPU,训练58天,总花费557.6万美元。作为对比,外界对GPT-4训练成本的估算,大约在7800万美元。一个量级的差距。 算法上的极致优化,直接反映到了价格上。DeepSeek的API价格,输入每百万Token仅0.028到0.28美元,输出0.42美元。而GPT-4o的输入价格是5美元,输出15美元。Claude Opus更贵,输入15美元,输出75美元。换算下来,DeepSeek比Claude便宜了25到75倍。 这个价格差,在全球开发者市场上反响巨大。2026年2月,全球最大的AI模型API聚合平台OpenRouter上,中国AI模型的周调用量在三周内暴涨127%,首次超越美国。一年前,中国模型在OpenRouter上的份额不足2%。一年后,增长了421%,逼近六成。 这组数据背后,有一个容易被忽视的结构性变化。2025年下半年开始,AI应用的主流场景从聊天转向了Agent(智能体)。Agent场景下,一次任务的Token消耗量是简单聊天的10到100倍。当Token的消耗量指数级增长时,价格就成了决定性因素。中国模型的极致性价比,恰好踩中了这个窗口。 但问题是,推理成本的降低,并没有解决训练的根本问题。一个大模型如果不能在最新的数据上持续训练、迭代,它的能力就会迅速退化。而训练,依然是那个绕不开的算力黑洞。 那么,训练的「铲子」,从哪里来? 备胎的转正 江苏兴化,苏中小城,以不锈钢和健康食品闻名,此前和AI没有任何关系。但2025年,一条148米长的国产算力服务器产线在这里建成投产,从签约到投产,只用了180天。 这条产线的核心,是两颗完全国产的芯片:龙芯3C6000处理器和太初元碁T100 AI加速卡。龙芯3C6000,从指令集到微架构全部自主研发。太初元碁脱胎于国家超级计算无锡中心和清华大学团队,采用异构众核架构。 这条产线满产时,5分钟下线一台服务器,这条生产线总投资11亿元,预计年产10万台。 更重要的是,基于这些国产芯片组成的万卡集群,已经开始承接真正的大模型训练任务。 2026年1月,智谱AI联合华为发布了GLM-Image,这是首个完全依托国产芯片实现全程训练的SOTA图像生成模型。2月,中国电信的千亿级「星辰」大模型,在上海临港的国产万卡算力池上完成了全流程训练。 这些案例的意义在于,它们证明了一件事:国产芯片,已经从「能用于推理」跨越到了「能用于训练」。这是质变。推理只需要跑已经训练好的模型,对芯片的要求相对较低;而训练需要处理海量数据、进行复杂的梯度计算和参数更新,对芯片的算力、互联带宽和软件生态的要求,高出一个数量级。 承担这些任务的核心力量,是华为的昇腾系列芯片。截至2025年底,昇腾生态的开发者数量已突破400万,合作伙伴超过3000家,43个业界主流大模型基于昇腾完成了预训练,200多个开源模型完成了适配。2026年3月2日的MWC大会上,华为还面向海外市场首发了新一代算力底座SuperPoD。 昇腾910B的FP16算力已经对标英伟达A100。虽然差距依然存在,但已经从不可用变成了可用,从可用正在走向好用。 生态的建设,不能等到芯片完美了再开始,必须在够用的阶段就大规模铺开,用真实的业务需求去倒逼芯片和软件的迭代。 字节跳动、腾讯、百度对国产算力服务器的导入目标,2026年普遍较上一年翻倍增长。工信部的数据显示,中国智算规模已达1590 EFLOPS。2026年,正在成为国产算力规模部署的元年。 美国电荒与中国出海 2026年初,承载了全球大量数据中心流量的弗吉尼亚州,暂停批准新的数据中心建设项目。佐治亚州跟进,暂停审批延续到2027年。伊利诺伊州、密歇根州也相继出台限制措施。 根据国际能源署的数据,2024年美国数据中心耗电量已达183太瓦时,约占全国总用电量的4%。到2030年,这个数字预计翻倍至426TWh,占比可能突破12%。Arm公司CEO更是预测,到2030年,AI数据中心将消耗美国20%到25%的电力。 美国的电网已经不堪重负。覆盖美国东部13个州的PJM电网面临6GW的容量短缺。到2033年,美国整体面临175GW的电力容量缺口,相当于1.3亿户家庭的用电量。数据中心集中区域的批发电力成本,比五年前高出了267%。 算力的尽头,是能源。而在能源这个维度上,中美之间的差距,比芯片还要大,只不过方向反了过来。 中国的年发电量是10.4万亿度,美国是4.2万亿度,中国是美国的2.5倍。更关键的是,中国的居民生活用电仅占总用电量的15%,而美国这个比例是36%。这意味着中国有远比美国更大的工业用电余量可以投入算力建设。 在电价上,美国AI公司聚集区的电价在0.12到0.15美元每千瓦时,而中国西部的工业电价约为0.03美元,仅为美国的四分之一到五分之一。 中国的发电增量,已经达到美国的7倍。 就在美国为电发愁的时候,中国的AI正在悄悄出海。但这一次出海的,不是产品,不是工厂,而是Token。 Token,AI模型处理信息的最小单位,正在成为一种新的数字商品。它从中国的算力工厂里被生产出来,通过海底光缆输送到全球。 DeepSeek的用户分布数据很能说明问题:中国本土占30.7%,印度13.6%,印尼6.9%,美国4.3%,法国3.2%。它支持37种语言,在巴西等新兴市场广受欢迎。全球有2.6万家企业开通了账户,3200家机构部署了企业版。 2025年,58%的新AI创业公司把DeepSeek纳入了技术栈。在中国,DeepSeek拿下了89%的市场份额。而在其他受制裁国家,市场份额则在40%~60%不等。 这幅景象,像极了四十年前的另一场关于产业自主权的战争。 1986年的东京,在美国的强大压力下,日本政府签订了《美日半导体协议》。协议的核心条款有三条:要求日本开放半导体市场,美国芯片在日本的市场份额须达到20%以上;严禁日本半导体以低于成本价格出口;对日本出口的3亿美元芯片征收100%惩罚性关税。同时,美国否决了富士通对仙童半导体的收购。 那一年,日本半导体产业正处在巅峰。1988年,日本控制了全球半导体市场51%的份额,美国只有36.8%。全球十大半导体公司,日本独占六席:NEC排名第二,东芝第三,日立第五,富士通第七,三菱第八,松下第九。1985年,Intel在美日半导体争夺战中亏损1.73亿美元,濒临破产。 但协议签订后,一切都变了。 美国通过301调查等手段,对日本半导体企业发起了全方位的压制。同时扶持韩国的三星、海力士,以更低的价格冲击日本的市场。日本的DRAM份额从80%跌至10%。到2017年,日本IC市场份额仅剩7%。曾经不可一世的巨头们,或被拆分,或被收购,或在无休止的亏损中黯然离场。 日本半导体的悲剧在于,它满足于在一个由单一外部力量主导的全球分工体系中,做那个最优秀的生产者,却从未想过去构建一个属于自己的、独立的生态。当潮水退去,它才发现,自己除了生产本身,一无所有。 今天的中国AI产业,正站在一个相似却又完全不同的路口。 相似的是,我们同样面临着来自外部的巨大压力。三轮芯片管制,层层加码,CUDA生态的壁垒依然高耸。 不同的是,这一次,我们选择的是一条更难的路。从算法层面的极致优化,到国产芯片从推理到训练的跨越,再到昇腾生态400万开发者的积累,再到Token出海对全球市场的渗透。这条路上的每一步,都在构建一种日本当年从未拥有过的独立产业生态。 尾声 2026年2月27日,三份来自本土AI芯片公司的业绩快报,在同一天发布。 寒武纪,营收暴增453%,首次实现全年盈利。摩尔线程,营收增长243%,但净亏损10亿。沐曦,营收增长121%,净亏损近8亿。 一半是火焰,一半是海水。 火焰,是市场的极度饥渴。黄仁勋让出的那95%的空白,正在被这些本土公司的营收数字,一寸一寸地填满。无论性能如何,无论生态怎样,市场需要英伟达之外的第二个选择。这是地缘政治撕开的、一个千载难逢的结构性机会。 海水,是生态建设的巨大成本。每一分亏损,都是为追赶CUDA生态而付出的真金白银。是研发的投入,是软件的补贴,是派驻到客户现场、一个一个解决编译问题的工程师的人力成本。这些亏损,不是经营不善,而是构建一个独立生态所必须支付的战争税。 这三份财报,比任何一份行业报告都更诚实地记录了这场算力战争的真实面貌。它不是一场高歌猛进的胜利,而是一场惨烈的、一边流血一边冲锋的阵地战。 但战争的形态,确实已经变了。八年前,我们讨论的是「能不能活下来」的问题。今天,我们讨论的是「活下来要付出多大代价」的问题。 代价本身,就是进步。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。