国内首家百亿估值纯推理GPU独角兽诞生:曦望王湛详解如何把百万Token成本压至一分钱
2026/04/23 22:28阅读量 2
成立仅1年多的纯推理GPU公司曦望完成七轮融资,累计40亿元,最新一轮融资后估值超百亿,成为国内该赛道首家独角兽。其核心战略是All in推理,通过自研启望S3芯片将单位Token成本降低90%,目标实现百万Token仅需一分钱。在AI Agent时代,推理算力需求预计将达到训练算力的4-5倍,低成本推理成为行业竞争的关键胜负手。
事件概述
杭州初创企业曦望(Xiwang)在分拆独立仅1年多时间内,已完成7轮融资,累计金额达40亿元人民币。随着最新一轮10亿元融资的曝光,该公司估值突破百亿元,成为国内首家估值超百亿的纯推理GPU独角兽。这一里程碑标志着AI算力市场从“训练为主”向“推理为王”的结构性转变。
核心信息
1. 行业拐点:推理算力需求爆发
- 需求反转:2026年,AI推理计算需求量预计达到训练算力需求的4-5倍,首次全面超越训练算力。
- 驱动因素:Agent(智能体) 的普及改变了交互模式。从单次对话转变为高频、多轮循环思考,导致Token消耗量达到过去人机交互方式的几十倍甚至上百倍。
- 竞争逻辑:行业风向已从关注模型“能不能用”转向“好不好用”及“用不用得起”。谁掌握最低的推理成本,谁就是赢家。
2. 技术路线:启望S3芯片重构成本曲线
曦望放弃通用GPU的训推一体路线,选择All in推理,推出专为大模型推理深度定制的新一代芯片——启望S3。
- 核心目标:将单位Token成本降低90%,实现百万Token成本降至一分钱。
- 架构创新:
- 计算层:采用原生AI Core架构,GEMM和Flash Attention等核心算子利用率分别提升至约99%和98%;支持FP16至FP4全链路低精度运算,吞吐量翻数倍。
- 系统层:
- 国内首款采用LPDDR6(兼容LPDDR5X)的推理GPU,显存最大接近600GB,解决长上下文记忆瓶颈。
- 国产GPU中首个搭载PCIe Gen6,系统通信带宽翻倍。
- 生态策略:坚持硬件与软件全栈自研,同时实现对**CUDA生态99%+**的兼容,确保客户零迁移成本。
3. 团队与组织
- “三位一体”领导层:
- 徐冰(董事长,商汤联合创始人):把控战略与融资。
- 王勇(联席CEO,前AMD、昆仑芯核心架构师):专注芯片研发。
- 王湛(联席CEO,前百度资深副总裁):负责商业化与市场。
- 人才密度:团队规模400余人,研发占比超80%,核心骨干来自英伟达、AMD、华为海思等大厂,平均行业经验超15年。
- 激励机制:提供中国GPU公司中最大的ESOP(员工持股计划)池,以激发组织战斗力。
- 工程能力:拥有全套自研仿真验证工具,保持每一代芯片一次性流片成功并点亮。
4. 未来判断
- 市场供需:王湛判断今年下半年乃至更长远的算力市场将呈现供不应求。限制增长的根本在于生产工具(如光模块、内存),而非市场需求。
- 商业化路径:优先攻克对标准最苛刻的互联网大厂,通过高压环境打磨产品根基。
- 价值观点:AI智能革命的速度远超工业革命和信息革命,底层价值正在快速填补估值泡沫,低成本推理是激活海量Agent应用的前提。
