智谱发布GLM-5.1高速版API，代码生成速度达400 tokens/s

2026/05/22 11:05阅读量 28

智谱推出GLM-5.1-highspeed高速版API，输出速度达400 tokens/s，成为当前顶流模型中最快的代码生成模型。实测显示其能一次性生成复杂网页代码、实时响应模糊指令调整参数，甚至在游戏中实时改变世界状态。该性能背后是团队在推理引擎、调度系统和基础设施层面的系统工程优化，标志着国产大模型API竞争进入“又快又稳”的新阶段。

事件概述

智谱于2026年5月22日发布旗舰模型GLM-5.1的高速版API——GLM-5.1-highspeed，官方宣称其输出速度达到400 tokens/s，是目前顶流模型中最快的。GLM-5.1本身已开源超过一个月，仍为开源模型中编程能力最强的模型。

核心信息

实测表现

复杂网页生成：输入“制作一个呼吸星云粒子动画，支持点击播放/暂停、可调节速度/密度/拖尾/光晕强度”等指令，模型在十几秒思考后一次性生成完整代码，效果符合要求。
交互式调参：在上一个代码基础上，模型能理解模糊指令（如“波纹快一点”“光晕暖色”“粒子柔一点”“背景深蓝层次”），并实时修改代码，使协作体验更像与设计师面对面调参。
游戏实时改变：允许用户通过对话框输入“下雪”“下雨”“爆炸”等导演指令，模型实时修改2D游戏中的天气、光照、事件等状态，展示了高速API在实时交互场景的可行性。
万字内容处理：对万字长文素材，模型在10秒内完成提炼3句海报标题、生成6条口播文案、输出3套产品宣传语、撰写800字公众号文案并汇总成JSON，效果扎实。

技术背景

GLM-5.1-highspeed并非缩小模型，而是通过系统工程优化实现旗舰模型的高速度。智谱GLM团队与TileRT团队联合优化了三层：

推理引擎：针对GLM-5.1架构重写核心推理路径。
调度系统：动态批处理、请求合并、KV缓存调度以降低尾延迟。
基础设施：推理集群部署、网络链路和负载均衡协同优化。

其中，TileRT将推理调度单元下沉到tile级别，通过编译期静态编排、常驻GPU的persistent Engine Kernel等方式，压缩调度、搬运与同步开销，减少host调用和跨算子同步。

值得关注

高速API竞争已从“能不能答好”转向“能不能又快又稳地干活”。
400 tokens/s的速度让AI Agent体验从“等待”变为“实时反馈”，任务推进更连续。
实际生产环境仍需验证模型质量、稳定性、成本、上下文能力、工具调用可靠性、并发能力及复杂任务错误率等指标。

阅读原文详情

事件概述

核心信息

实测表现

技术背景

值得关注

准备好启动您的定制项目了吗？