国产模型GLM-5.1开源登顶:8小时独立构建系统,成本仅为Opus的20%
2026/04/08 17:16阅读量 18
智谱AI开源的GLM-5.1在SWE-bench Pro基准测试中以58.4%的得分超越Claude Opus 4.6(57.3%)及GPT-5.4,成为该榜单全球第三、开源第一的模型。该模型具备长达8小时、1700步的自主连续工作能力,成功从零构建完整Linux桌面系统并自动修复Bug。其采用744B参数混合专家架构,全链路基于华为昇腾910B芯片训练,在保持接近顶级闭源模型性能的同时,将推理成本降低约97%。
事件概述
智谱AI正式开源GLM-5.1大模型,该模型在多项关键基准测试中表现优异,特别是在代码工程与长期任务执行能力上实现了显著突破,被业界视为国产大模型在算力受限背景下的重要里程碑。
核心性能数据
- SWE-bench Pro 排名:
- GLM-5.1:58.4%(开源模型第一,全球第三)
- Claude Opus 4.6:57.3%
- GPT-5.4:57.7%
- 注:该分数代表模型在真实GitHub仓库中定位并修复高难度工程Bug的能力,已超越绝大多数人类程序员水平。
- 持续工作时长:
- 从去年的约20步提升至1700步,支持连续工作8小时以上。
- 参数规模:
- 总参数量:744B(混合专家模型 MoE)
- 单次激活:40B
- 上下文窗口:200K tokens
- 最大输出:131,072 tokens
关键能力验证
1. 超长周期自主开发
智谱展示了GLM-5.1从零构建Linux桌面系统的案例:
- 耗时:8小时整
- 步骤:执行超过1200步操作
- 产出:包含完整桌面环境、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持及游戏库的4.8MB系统文件。
- 自动化程度:全程无人工干预,模型自行编写回归测试并通过验证。
2. 复杂工程测试通过
知乎博主Toyama nao对GLM-5.1进行了三项高难度工程测试:
- Swift编写macOS OpenGL渲染器
- Flutter开发全功能聊天软件 + Golang服务端
- 自选技术栈开发纯网页端视频剪辑应用
- 结果:GLM-5.1成为首个通过全部测试的国产模型,也是首个正式超越Sonnet 4.5 Thinking的国产模型。
3. 策略自适应优化
GLM-5.1突破了传统模型在收益停滞后无法切换策略的瓶颈:
- 向量数据库优化:经历655次迭代,查询吞吐从3108 QPS提升至21472 QPS(提升6.9倍),自动完成从全库扫描到IVF分桶召回、量化粗排等全套优化链条。
- KernelBench Level 3:对50个真实机器学习负载进行超24小时迭代,取得3.6倍几何平均加速比(优于torch.compile max-autotune模式的1.49倍),自主编写定制Triton和CUDA Kernel。
- Vending Bench 2:模拟经营自动售货机一年,最终账户余额达$4,432,在开源模型中排名第一。
技术架构与成本优势
- 硬件依赖:全模型基于华为昇腾910B芯片训练,未使用英伟达GPU。
- 注意力机制:集成DeepSeek Sparse Attention (DSA) 以降低部署成本。
- 开源协议:采用MIT License,支持商用、修改及本地部署。
- 推理框架:兼容vLLM、SGLang、xLLM等主流框架。
- 成本对比:
- 相比Claude Opus 4.6,输入成本降至1/5,输出成本降至1/8。
- 整体推理成本降低约97%(例如某项目从1000美元降至30美元)。
局限性与反馈
- 推理速度:实测约为44.3 tokens/秒,在同类产品中无明显优势。
- 长上下文幻觉:在超长上下文中可能出现“幻觉爆炸”,若两轮未能解决问题建议重置。
- 复杂任务耗时:部分复杂任务启动时间较长,即使Pro套餐额度较大也可能面临压力。
获取方式
- 官方API:BigModel开放平台、Z.ai
- 产品体验:Z.ai 即将上线
- 开源地址:
- GitHub: https://github.com/zai-org/GLM-5
- Hugging Face: https://huggingface.co/zai-org/GLM-5.1
- ModelScope: https://modelscope.cn/models/ZhipuAI/GLM-5.1
