国内首家百亿估值纯推理GPU独角兽诞生：曦望王湛详解如何把百万Token成本压至一分钱

2026/04/23 22:28阅读量 2

成立仅1年多的纯推理GPU公司曦望完成七轮融资，累计40亿元，最新一轮融资后估值超百亿，成为国内该赛道首家独角兽。其核心战略是All in推理，通过自研启望S3芯片将单位Token成本降低90%，目标实现百万Token仅需一分钱。在AI Agent时代，推理算力需求预计将达到训练算力的4-5倍，低成本推理成为行业竞争的关键胜负手。

事件概述

杭州初创企业曦望（Xiwang）在分拆独立仅1年多时间内，已完成7轮融资，累计金额达40亿元人民币。随着最新一轮10亿元融资的曝光，该公司估值突破百亿元，成为国内首家估值超百亿的纯推理GPU独角兽。这一里程碑标志着AI算力市场从“训练为主”向“推理为王”的结构性转变。

核心信息

1. 行业拐点：推理算力需求爆发

需求反转：2026年，AI推理计算需求量预计达到训练算力需求的4-5倍，首次全面超越训练算力。
驱动因素：Agent（智能体） 的普及改变了交互模式。从单次对话转变为高频、多轮循环思考，导致Token消耗量达到过去人机交互方式的几十倍甚至上百倍。
竞争逻辑：行业风向已从关注模型“能不能用”转向“好不好用”及“用不用得起”。谁掌握最低的推理成本，谁就是赢家。

2. 技术路线：启望S3芯片重构成本曲线

曦望放弃通用GPU的训推一体路线，选择All in推理，推出专为大模型推理深度定制的新一代芯片——启望S3。

核心目标：将单位Token成本降低90%，实现百万Token成本降至一分钱。
架构创新：
- 计算层：采用原生AI Core架构，GEMM和Flash Attention等核心算子利用率分别提升至约99%和98%；支持FP16至FP4全链路低精度运算，吞吐量翻数倍。
- 系统层：
  - 国内首款采用LPDDR6（兼容LPDDR5X）的推理GPU，显存最大接近600GB，解决长上下文记忆瓶颈。
  - 国产GPU中首个搭载PCIe Gen6，系统通信带宽翻倍。
生态策略：坚持硬件与软件全栈自研，同时实现对**CUDA生态99%+**的兼容，确保客户零迁移成本。

3. 团队与组织

“三位一体”领导层：
- 徐冰（董事长，商汤联合创始人）：把控战略与融资。
- 王勇（联席CEO，前AMD、昆仑芯核心架构师）：专注芯片研发。
- 王湛（联席CEO，前百度资深副总裁）：负责商业化与市场。
人才密度：团队规模400余人，研发占比超80%，核心骨干来自英伟达、AMD、华为海思等大厂，平均行业经验超15年。
激励机制：提供中国GPU公司中最大的ESOP（员工持股计划）池，以激发组织战斗力。
工程能力：拥有全套自研仿真验证工具，保持每一代芯片一次性流片成功并点亮。

4. 未来判断

市场供需：王湛判断今年下半年乃至更长远的算力市场将呈现供不应求。限制增长的根本在于生产工具（如光模块、内存），而非市场需求。
商业化路径：优先攻克对标准最苛刻的互联网大厂，通过高压环境打磨产品根基。
价值观点：AI智能革命的速度远超工业革命和信息革命，底层价值正在快速填补估值泡沫，低成本推理是激活海量Agent应用的前提。

阅读原文详情