国产模型GLM-5.1开源登顶：8小时独立构建系统，成本仅为Opus的20%

2026/04/08 17:16阅读量 276

智谱AI开源的GLM-5.1在SWE-bench Pro基准测试中以58.4%的得分超越Claude Opus 4.6（57.3%）及GPT-5.4，成为该榜单全球第三、开源第一的模型。该模型具备长达8小时、1700步的自主连续工作能力，成功从零构建完整Linux桌面系统并自动修复Bug。其采用744B参数混合专家架构，全链路基于华为昇腾910B芯片训练，在保持接近顶级闭源模型性能的同时，将推理成本降低约97%。

事件概述

智谱AI正式开源GLM-5.1大模型，该模型在多项关键基准测试中表现优异，特别是在代码工程与长期任务执行能力上实现了显著突破，被业界视为国产大模型在算力受限背景下的重要里程碑。

核心性能数据

SWE-bench Pro 排名：
- GLM-5.1：58.4%（开源模型第一，全球第三）
- Claude Opus 4.6：57.3%
- GPT-5.4：57.7%
- 注：该分数代表模型在真实GitHub仓库中定位并修复高难度工程Bug的能力，已超越绝大多数人类程序员水平。
持续工作时长：
- 从去年的约20步提升至1700步，支持连续工作8小时以上。
参数规模：
- 总参数量：744B（混合专家模型 MoE）
- 单次激活：40B
- 上下文窗口：200K tokens
- 最大输出：131,072 tokens

关键能力验证

1. 超长周期自主开发

智谱展示了GLM-5.1从零构建Linux桌面系统的案例：

耗时：8小时整
步骤：执行超过1200步操作
产出：包含完整桌面环境、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持及游戏库的4.8MB系统文件。
自动化程度：全程无人工干预，模型自行编写回归测试并通过验证。

2. 复杂工程测试通过

知乎博主Toyama nao对GLM-5.1进行了三项高难度工程测试：

Swift编写macOS OpenGL渲染器
Flutter开发全功能聊天软件 + Golang服务端
自选技术栈开发纯网页端视频剪辑应用
结果：GLM-5.1成为首个通过全部测试的国产模型，也是首个正式超越Sonnet 4.5 Thinking的国产模型。

3. 策略自适应优化

GLM-5.1突破了传统模型在收益停滞后无法切换策略的瓶颈：

向量数据库优化：经历655次迭代，查询吞吐从3108 QPS提升至21472 QPS（提升6.9倍），自动完成从全库扫描到IVF分桶召回、量化粗排等全套优化链条。
KernelBench Level 3：对50个真实机器学习负载进行超24小时迭代，取得3.6倍几何平均加速比（优于torch.compile max-autotune模式的1.49倍），自主编写定制Triton和CUDA Kernel。
Vending Bench 2：模拟经营自动售货机一年，最终账户余额达$4,432，在开源模型中排名第一。

技术架构与成本优势

硬件依赖：全模型基于华为昇腾910B芯片训练，未使用英伟达GPU。
注意力机制：集成DeepSeek Sparse Attention (DSA) 以降低部署成本。
开源协议：采用MIT License，支持商用、修改及本地部署。
推理框架：兼容vLLM、SGLang、xLLM等主流框架。
成本对比：
- 相比Claude Opus 4.6，输入成本降至1/5，输出成本降至1/8。
- 整体推理成本降低约97%（例如某项目从1000美元降至30美元）。

局限性与反馈

推理速度：实测约为44.3 tokens/秒，在同类产品中无明显优势。
长上下文幻觉：在超长上下文中可能出现“幻觉爆炸”，若两轮未能解决问题建议重置。
复杂任务耗时：部分复杂任务启动时间较长，即使Pro套餐额度较大也可能面临压力。

获取方式

官方API：BigModel开放平台、Z.ai
产品体验：Z.ai 即将上线
开源地址：
- GitHub: https://github.com/zai-org/GLM-5
- Hugging Face: https://huggingface.co/zai-org/GLM-5.1
- ModelScope: https://modelscope.cn/models/ZhipuAI/GLM-5.1

阅读原文详情