DeepSeek 融资传闻背后的挑战：从训练端通缩到推理端成本困局

2026/04/19 16:13阅读量 2

DeepSeek 被传启动首次外部融资，目标估值不低于 100 亿美元，计划筹集至少 3 亿美元资金。然而，在大模型行业竞争焦点转向多模态、AI Coding 及 Agent 生态的背景下，其旗舰新模型迟迟未发布，且面临核心人才流失的尴尬局面。尽管 DeepSeek 曾在训练端通过极致优化实现“成本通缩”，但在推理端 Token 消耗激增导致算力价格飙升的现状下，如何复刻低价策略成为市场关注焦点。

事件概述

据上海证券报报道，4 月 18 日，DeepSeek（深度求索）正式启动成立以来的首次外部融资，目标估值不低于 100 亿美元，计划筹集至少 3 亿美元资金。尽管公司方面尚未官方确认，但路透社等主流财经媒体已跟进报道，称圈内消息确凿。

核心挑战与行业背景

在资本狂欢之外，DeepSeek 正面临大模型落地现实的严峻考验，主要体现在以下三个维度：

1. 产品发布延期与人才流失

新模型“跳票”：DeepSeek 下一代旗舰模型（代号 DS）原定于 2026 年 2 月发布，随后传言推迟至 3 月，甚至一度引发 A 股算力板块波动，但官方最终辟谣 R2 发布为假消息。截至 4 月中旬，新模型仍未面世。
核心人员离职：DeepSeek 前核心研究员郭达雅已加入字节跳动负责大模型研发的 Seed 组织，担任 Agent 负责人之一。这反映出 DeepSeek 在内部曾轻视的 Agent 赛道如今已成为全行业主战场，而公司自身却因底层模型迟迟未交付而陷入被动。

2. 竞争格局的剧变

过去一年，大模型行业的竞争重心已从单纯的基座能力跑分，转向了更复杂的场景应用：

原生多模态崛起：Gemini、Seedance 2.0 等模型在图像生成与视频领域表现强劲，单一文本模型的护城河正在瓦解。
AI Coding 爆发：以 Claude 为代表的模型在代码生成领域展现统治力，Cursor 估值已超 500 亿美元。
Agent 生态繁荣：OpenClaw、Hermas 等应用推动 Token 调用频次指数级增长，智谱、MiniMax、Kimi 等厂商凭借海量 API 调用获利，甚至促使部分厂商转向闭源。

在此背景下，市场不再期待一个“六边形战士”式的通用模型，而是更需要能在特定垂直领域提供高价值解决方案的产品。

3. “Token 通缩”能否重现？

DeepSeek 最大的标签是“价格屠夫”。一年前，R1 模型以约 558 万美元的训练成本击败数亿美元成本的 GPT-4，引发英伟达单日市值蒸发近 6000 亿美元的震荡。

然而，当前市场环境已发生根本性逆转：

推理成本飙升：中信证券数据显示，受 Agent 需求驱动，老旧款 AI 芯片 H100 租赁价格从 2025 年 10 月的 1.70 美元/小时/GPU 飙升至 2026 年 3 月的 2.35 美元/小时/GPU，涨幅近 40%。
云厂商集体涨价：阿里云、百度智能云、腾讯云等国内头部云厂商近期相继上调 AI 算力产品价格，涨幅在 5%-34% 不等；亚马逊 AWS 和谷歌云也进行了调价。
企业战略调整：阿里成立 Alibaba Token Hub（ATH）事业群，由 CEO 吴泳铭挂帅，旨在统筹集团层面的 Token 创造、输送与应用，侧面印证了 Token 消耗已成为核心成本压力。

技术应对与未来展望

面对推理端的成本压力，DeepSeek 并未停止降本探索：

架构创新：今年元旦提出 mHC 新架构，旨在解决传统超连接在大规模训练中的不稳定性问题。
开源与论文：开源 Engram 模块，并发布与北京大学联合撰写的关于“条件存储（Conditional Memory）”的稀疏化方向论文。

这些举措表明 DeepSeek 仍致力于通过架构和方法论创新打破算力成本硬约束。市场关注的焦点在于，梁文峰及其团队能否在推理端再次复制训练端的“通缩奇迹”，将高昂的 Token 单价打下来，从而在激烈的存量竞争中突围。

阅读原文详情