智谱 GLM-5.1 高速版 API 达 400 tokens/s，推理速度提升驱动股价暴涨近 30%

2026/05/23 09:09阅读量 2

智谱（02513.HK）因发布 GLM-5.1 高速版 API，输出速度达每秒 400 tokens，约为行业平均水平的 3–5 倍，股价单日涨幅一度超 30%，市值升至 5715.7 亿港元。背后依赖自研推理引擎 TileRT 和网络架构 ZCube，在保留旗舰模型能力的同时实现低延迟，并带来吞吐提升、尾延迟下降、网络设备成本减少等实际收益。

事件概述

2026 年 5 月 22 日，智谱面向企业客户开放 GLM-5.1 高速版 API，输出速度达到每秒 400 tokens（约 200 个汉字/秒），刷新全球大模型厂商 API 速度上限。受此消息影响，智谱（02513.HK）5 月 22 日盘中涨幅一度突破 30%，收盘报 1282 港元，全天涨幅超 26%，市值达到 5715.7 亿港元，创历史新高。

速度为何关键

大模型正从 ChatBot 进入 Agent 时代，Agent 任务常需数十轮乃至上百轮自我调用（写代码、调接口、搜信息等），每一轮延迟都会累加放大。
更快的推理意味着在固定时间预算内，模型可完成更深推理路径和更多轮次自我验证，速度正从系统指标转变为智能上限。
此前行业头部水平：OpenAI GPT-4o 约 100–150 tokens/s，Anthropic Claude Sonnet 约 80–120 tokens/s，国内主流旗舰大多在 50–100 tokens/s。GLM-5.1 高速版达到 400 tokens/s，约为行业平均的 3–5 倍。

技术突破三层叠加

1. 推理引擎 TileRT

传统方式：模型被分解为独立算子，每个算子单独启动计算核心，计算完停顿同步再启动下一个。推理时单步仅需几十微秒，启动和等待开销占比极高。
TileRT 方案：在编译阶段将模型所有计算逻辑静态展开成连续流水线，GPU 一次启动后持续运行，计算、数据搬运、通信并行推进，中间结果尽量留在 GPU 内部高速缓存。
关键设计“Warp 专门化”：GPU 内的 Warp（32 个计算单元一组）不再执行同一指令序列，而是分别负责数据搬运、数学计算、GPU 间通信，流水配合互不等待。

2. 多卡并行优化

GLM-5.1 采用 MLA（Multi-head Latent Attention）注意力机制，该机制由 DeepSeek 提出，可将中间数据压缩为“潜在向量”存储，显存需求大幅下降。但 MLA 流程包含稀疏索引（类似快速找出相关书）和密集计算（精读）两个环节。
传统张量并行让所有 GPU 平摊所有操作，稀疏索引依赖全局信息，导致大量同步通信浪费。
TileRT 让 GPU 异构运行：GPU 0 专门负责稀疏索引和路由决策（“图书馆检索员”），GPU 1–7 负责密集注意力计算和矩阵运算（“精读分析员”），两类工作者采用各自最适合的并行策略。同时将 GPU 间通信直接嵌入执行流水线，整个 8 卡系统完成一层注意力计算只需一次内核启动。

3. 网络架构 ZCube

行业通行方法 ROFT（NVIDIA 官方推荐）采用 Leaf-Spine 树形拓扑，数据至少经过 3 跳，依赖 ECMP 负载均衡，但推理场景流量极不均匀，易导致 Leaf 交换机热点及拥塞扩散。
ZCube 方案：
- 取消 Spine 骨干层，全网扁平化。Leaf 交换机按奇偶编号分为两组，两组之间完全互联，任意两台 GPU 最多经过两台交换机互达（跳数从 3 降到 2）。
- 每张 GPU 网卡以两种不同方式分别接入两组交换机，形成全网任意两张 GPU 之间有且仅有一条最优路径的拓扑，直接消除拥塞根源（不需要负载均衡）。

实际收益

智谱将 GLM-5.1 生产集群从传统 ROFT 升级到 ZCube 后：

吞吐提升 15%：GPU 数量不变，等价于多出 15% 算力，每 token 均摊硬件成本下降约 13%。
尾延迟下降 40.6%：对需要 50 轮调用的 Agent 任务，每次延迟降低 1 秒，总最坏完成时间压缩近 1 分钟。
成本减少三分之一：取消 Spine 层后，相同集群规模下交换机和光模块数量减少三分之一。据智谱测算，万卡集群可节省约 2.1 亿至 6.4 亿元。

值得关注的产业链影响

ZCube 架构对 Leaf 交换机的端口密度要求更高，受益方为高密度大端口 Leaf 交换机厂商（如锐捷、Arista、博通交换芯片），受损方为依赖 Spine 层高端交换机溢价的厂商。2025 年 Celestica 和英伟达合计约占 AI 后端网络交换机 50% 份额，该格局可能面临洗牌。
光模块是直接受益方向：ZCube 范式下对高速光模块（800G、1.6T）需求更集中迫切，利好国内光模块厂商（中际旭创、天孚通信等）。
TileRT 和 ZCube 均为运行在标准 GPU 上的纯软件推理引擎，不依赖英伟达私有硬件特性，理论上可移植到华为昇腾等国产芯片，有望大幅降低国产 AI 芯片在推理场景的软件栈门槛。

阅读原文详情

事件概述

速度为何关键

技术突破三层叠加

实际收益

值得关注的产业链影响

准备好启动您的定制项目了吗？