国产模型GLM-5.1开源登顶:8小时独立构建系统,成本仅为Opus的20%

2026/04/08 17:16阅读量 18

智谱AI开源的GLM-5.1在SWE-bench Pro基准测试中以58.4%的得分超越Claude Opus 4.6(57.3%)及GPT-5.4,成为该榜单全球第三、开源第一的模型。该模型具备长达8小时、1700步的自主连续工作能力,成功从零构建完整Linux桌面系统并自动修复Bug。其采用744B参数混合专家架构,全链路基于华为昇腾910B芯片训练,在保持接近顶级闭源模型性能的同时,将推理成本降低约97%。

事件概述

智谱AI正式开源GLM-5.1大模型,该模型在多项关键基准测试中表现优异,特别是在代码工程与长期任务执行能力上实现了显著突破,被业界视为国产大模型在算力受限背景下的重要里程碑。

核心性能数据

  • SWE-bench Pro 排名
    • GLM-5.1:58.4%(开源模型第一,全球第三)
    • Claude Opus 4.6:57.3%
    • GPT-5.4:57.7%
    • 注:该分数代表模型在真实GitHub仓库中定位并修复高难度工程Bug的能力,已超越绝大多数人类程序员水平。
  • 持续工作时长
    • 从去年的约20步提升至1700步,支持连续工作8小时以上。
  • 参数规模
    • 总参数量:744B(混合专家模型 MoE)
    • 单次激活:40B
    • 上下文窗口:200K tokens
    • 最大输出:131,072 tokens

关键能力验证

1. 超长周期自主开发

智谱展示了GLM-5.1从零构建Linux桌面系统的案例:

  • 耗时:8小时整
  • 步骤:执行超过1200步操作
  • 产出:包含完整桌面环境、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持及游戏库的4.8MB系统文件。
  • 自动化程度:全程无人工干预,模型自行编写回归测试并通过验证。

2. 复杂工程测试通过

知乎博主Toyama nao对GLM-5.1进行了三项高难度工程测试:

  • Swift编写macOS OpenGL渲染器
  • Flutter开发全功能聊天软件 + Golang服务端
  • 自选技术栈开发纯网页端视频剪辑应用
  • 结果:GLM-5.1成为首个通过全部测试的国产模型,也是首个正式超越Sonnet 4.5 Thinking的国产模型。

3. 策略自适应优化

GLM-5.1突破了传统模型在收益停滞后无法切换策略的瓶颈:

  • 向量数据库优化:经历655次迭代,查询吞吐从3108 QPS提升至21472 QPS(提升6.9倍),自动完成从全库扫描到IVF分桶召回、量化粗排等全套优化链条。
  • KernelBench Level 3:对50个真实机器学习负载进行超24小时迭代,取得3.6倍几何平均加速比(优于torch.compile max-autotune模式的1.49倍),自主编写定制Triton和CUDA Kernel。
  • Vending Bench 2:模拟经营自动售货机一年,最终账户余额达$4,432,在开源模型中排名第一。

技术架构与成本优势

  • 硬件依赖:全模型基于华为昇腾910B芯片训练,未使用英伟达GPU。
  • 注意力机制:集成DeepSeek Sparse Attention (DSA) 以降低部署成本。
  • 开源协议:采用MIT License,支持商用、修改及本地部署。
  • 推理框架:兼容vLLM、SGLang、xLLM等主流框架。
  • 成本对比
    • 相比Claude Opus 4.6,输入成本降至1/5,输出成本降至1/8
    • 整体推理成本降低约97%(例如某项目从1000美元降至30美元)。

局限性与反馈

  • 推理速度:实测约为44.3 tokens/秒,在同类产品中无明显优势。
  • 长上下文幻觉:在超长上下文中可能出现“幻觉爆炸”,若两轮未能解决问题建议重置。
  • 复杂任务耗时:部分复杂任务启动时间较长,即使Pro套餐额度较大也可能面临压力。

获取方式

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。