智谱发布GLM-5.1高速版API,代码生成速度达400 tokens/s

2026/05/22 11:05阅读量 28

智谱推出GLM-5.1-highspeed高速版API,输出速度达400 tokens/s,成为当前顶流模型中最快的代码生成模型。实测显示其能一次性生成复杂网页代码、实时响应模糊指令调整参数,甚至在游戏中实时改变世界状态。该性能背后是团队在推理引擎、调度系统和基础设施层面的系统工程优化,标志着国产大模型API竞争进入“又快又稳”的新阶段。

事件概述

智谱于2026年5月22日发布旗舰模型GLM-5.1的高速版API——GLM-5.1-highspeed,官方宣称其输出速度达到400 tokens/s,是目前顶流模型中最快的。GLM-5.1本身已开源超过一个月,仍为开源模型中编程能力最强的模型。

核心信息

实测表现

  • 复杂网页生成:输入“制作一个呼吸星云粒子动画,支持点击播放/暂停、可调节速度/密度/拖尾/光晕强度”等指令,模型在十几秒思考后一次性生成完整代码,效果符合要求。
  • 交互式调参:在上一个代码基础上,模型能理解模糊指令(如“波纹快一点”“光晕暖色”“粒子柔一点”“背景深蓝层次”),并实时修改代码,使协作体验更像与设计师面对面调参。
  • 游戏实时改变:允许用户通过对话框输入“下雪”“下雨”“爆炸”等导演指令,模型实时修改2D游戏中的天气、光照、事件等状态,展示了高速API在实时交互场景的可行性。
  • 万字内容处理:对万字长文素材,模型在10秒内完成提炼3句海报标题、生成6条口播文案、输出3套产品宣传语、撰写800字公众号文案并汇总成JSON,效果扎实。

技术背景

GLM-5.1-highspeed并非缩小模型,而是通过系统工程优化实现旗舰模型的高速度。智谱GLM团队与TileRT团队联合优化了三层:

  • 推理引擎:针对GLM-5.1架构重写核心推理路径。
  • 调度系统:动态批处理、请求合并、KV缓存调度以降低尾延迟。
  • 基础设施:推理集群部署、网络链路和负载均衡协同优化。

其中,TileRT将推理调度单元下沉到tile级别,通过编译期静态编排、常驻GPU的persistent Engine Kernel等方式,压缩调度、搬运与同步开销,减少host调用和跨算子同步。

值得关注

  • 高速API竞争已从“能不能答好”转向“能不能又快又稳地干活”。
  • 400 tokens/s的速度让AI Agent体验从“等待”变为“实时反馈”,任务推进更连续。
  • 实际生产环境仍需验证模型质量、稳定性、成本、上下文能力、工具调用可靠性、并发能力及复杂任务错误率等指标。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。