国内首家百亿估值纯推理GPU独角兽诞生:曦望王湛详解如何把百万Token成本压至一分钱

2026/04/23 22:28阅读量 2

成立仅1年多的纯推理GPU公司曦望完成七轮融资,累计40亿元,最新一轮融资后估值超百亿,成为国内该赛道首家独角兽。其核心战略是All in推理,通过自研启望S3芯片将单位Token成本降低90%,目标实现百万Token仅需一分钱。在AI Agent时代,推理算力需求预计将达到训练算力的4-5倍,低成本推理成为行业竞争的关键胜负手。

事件概述

杭州初创企业曦望(Xiwang)在分拆独立仅1年多时间内,已完成7轮融资,累计金额达40亿元人民币。随着最新一轮10亿元融资的曝光,该公司估值突破百亿元,成为国内首家估值超百亿的纯推理GPU独角兽。这一里程碑标志着AI算力市场从“训练为主”向“推理为王”的结构性转变。

核心信息

1. 行业拐点:推理算力需求爆发

  • 需求反转:2026年,AI推理计算需求量预计达到训练算力需求的4-5倍,首次全面超越训练算力。
  • 驱动因素Agent(智能体) 的普及改变了交互模式。从单次对话转变为高频、多轮循环思考,导致Token消耗量达到过去人机交互方式的几十倍甚至上百倍。
  • 竞争逻辑:行业风向已从关注模型“能不能用”转向“好不好用”及“用不用得起”。谁掌握最低的推理成本,谁就是赢家

2. 技术路线:启望S3芯片重构成本曲线

曦望放弃通用GPU的训推一体路线,选择All in推理,推出专为大模型推理深度定制的新一代芯片——启望S3

  • 核心目标:将单位Token成本降低90%,实现百万Token成本降至一分钱
  • 架构创新
    • 计算层:采用原生AI Core架构,GEMM和Flash Attention等核心算子利用率分别提升至约99%98%;支持FP16至FP4全链路低精度运算,吞吐量翻数倍。
    • 系统层
      • 国内首款采用LPDDR6(兼容LPDDR5X)的推理GPU,显存最大接近600GB,解决长上下文记忆瓶颈。
      • 国产GPU中首个搭载PCIe Gen6,系统通信带宽翻倍。
  • 生态策略:坚持硬件与软件全栈自研,同时实现对**CUDA生态99%+**的兼容,确保客户零迁移成本。

3. 团队与组织

  • “三位一体”领导层
    • 徐冰(董事长,商汤联合创始人):把控战略与融资。
    • 王勇(联席CEO,前AMD、昆仑芯核心架构师):专注芯片研发。
    • 王湛(联席CEO,前百度资深副总裁):负责商业化与市场。
  • 人才密度:团队规模400余人,研发占比超80%,核心骨干来自英伟达、AMD、华为海思等大厂,平均行业经验超15年。
  • 激励机制:提供中国GPU公司中最大的ESOP(员工持股计划)池,以激发组织战斗力。
  • 工程能力:拥有全套自研仿真验证工具,保持每一代芯片一次性流片成功并点亮。

4. 未来判断

  • 市场供需:王湛判断今年下半年乃至更长远的算力市场将呈现供不应求。限制增长的根本在于生产工具(如光模块、内存),而非市场需求。
  • 商业化路径:优先攻克对标准最苛刻的互联网大厂,通过高压环境打磨产品根基。
  • 价值观点:AI智能革命的速度远超工业革命和信息革命,底层价值正在快速填补估值泡沫,低成本推理是激活海量Agent应用的前提。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。