DeepSeek 融资传闻背后的挑战:从训练端通缩到推理端成本困局
2026/04/19 16:13阅读量 2
DeepSeek 被传启动首次外部融资,目标估值不低于 100 亿美元,计划筹集至少 3 亿美元资金。然而,在大模型行业竞争焦点转向多模态、AI Coding 及 Agent 生态的背景下,其旗舰新模型迟迟未发布,且面临核心人才流失的尴尬局面。尽管 DeepSeek 曾在训练端通过极致优化实现“成本通缩”,但在推理端 Token 消耗激增导致算力价格飙升的现状下,如何复刻低价策略成为市场关注焦点。
事件概述
据上海证券报报道,4 月 18 日,DeepSeek(深度求索)正式启动成立以来的首次外部融资,目标估值不低于 100 亿美元,计划筹集至少 3 亿美元资金。尽管公司方面尚未官方确认,但路透社等主流财经媒体已跟进报道,称圈内消息确凿。
核心挑战与行业背景
在资本狂欢之外,DeepSeek 正面临大模型落地现实的严峻考验,主要体现在以下三个维度:
1. 产品发布延期与人才流失
- 新模型“跳票”:DeepSeek 下一代旗舰模型(代号 DS)原定于 2026 年 2 月发布,随后传言推迟至 3 月,甚至一度引发 A 股算力板块波动,但官方最终辟谣 R2 发布为假消息。截至 4 月中旬,新模型仍未面世。
- 核心人员离职:DeepSeek 前核心研究员郭达雅已加入字节跳动负责大模型研发的 Seed 组织,担任 Agent 负责人之一。这反映出 DeepSeek 在内部曾轻视的 Agent 赛道如今已成为全行业主战场,而公司自身却因底层模型迟迟未交付而陷入被动。
2. 竞争格局的剧变
过去一年,大模型行业的竞争重心已从单纯的基座能力跑分,转向了更复杂的场景应用:
- 原生多模态崛起:Gemini、Seedance 2.0 等模型在图像生成与视频领域表现强劲,单一文本模型的护城河正在瓦解。
- AI Coding 爆发:以 Claude 为代表的模型在代码生成领域展现统治力,Cursor 估值已超 500 亿美元。
- Agent 生态繁荣:OpenClaw、Hermas 等应用推动 Token 调用频次指数级增长,智谱、MiniMax、Kimi 等厂商凭借海量 API 调用获利,甚至促使部分厂商转向闭源。
在此背景下,市场不再期待一个“六边形战士”式的通用模型,而是更需要能在特定垂直领域提供高价值解决方案的产品。
3. “Token 通缩”能否重现?
DeepSeek 最大的标签是“价格屠夫”。一年前,R1 模型以约 558 万美元的训练成本击败数亿美元成本的 GPT-4,引发英伟达单日市值蒸发近 6000 亿美元的震荡。
然而,当前市场环境已发生根本性逆转:
- 推理成本飙升:中信证券数据显示,受 Agent 需求驱动,老旧款 AI 芯片 H100 租赁价格从 2025 年 10 月的 1.70 美元/小时/GPU 飙升至 2026 年 3 月的 2.35 美元/小时/GPU,涨幅近 40%。
- 云厂商集体涨价:阿里云、百度智能云、腾讯云等国内头部云厂商近期相继上调 AI 算力产品价格,涨幅在 5%-34% 不等;亚马逊 AWS 和谷歌云也进行了调价。
- 企业战略调整:阿里成立 Alibaba Token Hub(ATH)事业群,由 CEO 吴泳铭挂帅,旨在统筹集团层面的 Token 创造、输送与应用,侧面印证了 Token 消耗已成为核心成本压力。
技术应对与未来展望
面对推理端的成本压力,DeepSeek 并未停止降本探索:
- 架构创新:今年元旦提出 mHC 新架构,旨在解决传统超连接在大规模训练中的不稳定性问题。
- 开源与论文:开源 Engram 模块,并发布与北京大学联合撰写的关于“条件存储(Conditional Memory)”的稀疏化方向论文。
这些举措表明 DeepSeek 仍致力于通过架构和方法论创新打破算力成本硬约束。市场关注的焦点在于,梁文峰及其团队能否在推理端再次复制训练端的“通缩奇迹”,将高昂的 Token 单价打下来,从而在激烈的存量竞争中突围。
