智谱 GLM-5.1 高速版 API 达 400 tokens/s,推理速度提升驱动股价暴涨近 30%
2026/05/23 09:09阅读量 2
智谱(02513.HK)因发布 GLM-5.1 高速版 API,输出速度达每秒 400 tokens,约为行业平均水平的 3–5 倍,股价单日涨幅一度超 30%,市值升至 5715.7 亿港元。背后依赖自研推理引擎 TileRT 和网络架构 ZCube,在保留旗舰模型能力的同时实现低延迟,并带来吞吐提升、尾延迟下降、网络设备成本减少等实际收益。
事件概述
2026 年 5 月 22 日,智谱面向企业客户开放 GLM-5.1 高速版 API,输出速度达到每秒 400 tokens(约 200 个汉字/秒),刷新全球大模型厂商 API 速度上限。受此消息影响,智谱(02513.HK)5 月 22 日盘中涨幅一度突破 30%,收盘报 1282 港元,全天涨幅超 26%,市值达到 5715.7 亿港元,创历史新高。
速度为何关键
- 大模型正从 ChatBot 进入 Agent 时代,Agent 任务常需数十轮乃至上百轮自我调用(写代码、调接口、搜信息等),每一轮延迟都会累加放大。
- 更快的推理意味着在固定时间预算内,模型可完成更深推理路径和更多轮次自我验证,速度正从系统指标转变为智能上限。
- 此前行业头部水平:OpenAI GPT-4o 约 100–150 tokens/s,Anthropic Claude Sonnet 约 80–120 tokens/s,国内主流旗舰大多在 50–100 tokens/s。GLM-5.1 高速版达到 400 tokens/s,约为行业平均的 3–5 倍。
技术突破三层叠加
1. 推理引擎 TileRT
- 传统方式:模型被分解为独立算子,每个算子单独启动计算核心,计算完停顿同步再启动下一个。推理时单步仅需几十微秒,启动和等待开销占比极高。
- TileRT 方案:在编译阶段将模型所有计算逻辑静态展开成连续流水线,GPU 一次启动后持续运行,计算、数据搬运、通信并行推进,中间结果尽量留在 GPU 内部高速缓存。
- 关键设计“Warp 专门化”:GPU 内的 Warp(32 个计算单元一组)不再执行同一指令序列,而是分别负责数据搬运、数学计算、GPU 间通信,流水配合互不等待。
2. 多卡并行优化
- GLM-5.1 采用 MLA(Multi-head Latent Attention)注意力机制,该机制由 DeepSeek 提出,可将中间数据压缩为“潜在向量”存储,显存需求大幅下降。但 MLA 流程包含稀疏索引(类似快速找出相关书)和密集计算(精读)两个环节。
- 传统张量并行让所有 GPU 平摊所有操作,稀疏索引依赖全局信息,导致大量同步通信浪费。
- TileRT 让 GPU 异构运行:GPU 0 专门负责稀疏索引和路由决策(“图书馆检索员”),GPU 1–7 负责密集注意力计算和矩阵运算(“精读分析员”),两类工作者采用各自最适合的并行策略。同时将 GPU 间通信直接嵌入执行流水线,整个 8 卡系统完成一层注意力计算只需一次内核启动。
3. 网络架构 ZCube
- 行业通行方法 ROFT(NVIDIA 官方推荐)采用 Leaf-Spine 树形拓扑,数据至少经过 3 跳,依赖 ECMP 负载均衡,但推理场景流量极不均匀,易导致 Leaf 交换机热点及拥塞扩散。
- ZCube 方案:
- 取消 Spine 骨干层,全网扁平化。Leaf 交换机按奇偶编号分为两组,两组之间完全互联,任意两台 GPU 最多经过两台交换机互达(跳数从 3 降到 2)。
- 每张 GPU 网卡以两种不同方式分别接入两组交换机,形成全网任意两张 GPU 之间有且仅有一条最优路径的拓扑,直接消除拥塞根源(不需要负载均衡)。
实际收益
智谱将 GLM-5.1 生产集群从传统 ROFT 升级到 ZCube 后:
- 吞吐提升 15%:GPU 数量不变,等价于多出 15% 算力,每 token 均摊硬件成本下降约 13%。
- 尾延迟下降 40.6%:对需要 50 轮调用的 Agent 任务,每次延迟降低 1 秒,总最坏完成时间压缩近 1 分钟。
- 成本减少三分之一:取消 Spine 层后,相同集群规模下交换机和光模块数量减少三分之一。据智谱测算,万卡集群可节省约 2.1 亿至 6.4 亿元。
值得关注的产业链影响
- ZCube 架构对 Leaf 交换机的端口密度要求更高,受益方为高密度大端口 Leaf 交换机厂商(如锐捷、Arista、博通交换芯片),受损方为依赖 Spine 层高端交换机溢价的厂商。2025 年 Celestica 和英伟达合计约占 AI 后端网络交换机 50% 份额,该格局可能面临洗牌。
- 光模块是直接受益方向:ZCube 范式下对高速光模块(800G、1.6T)需求更集中迫切,利好国内光模块厂商(中际旭创、天孚通信等)。
- TileRT 和 ZCube 均为运行在标准 GPU 上的纯软件推理引擎,不依赖英伟达私有硬件特性,理论上可移植到华为昇腾等国产芯片,有望大幅降低国产 AI 芯片在推理场景的软件栈门槛。
