实测GLM-5.2:开源模型代码能力逼近Claude,复杂业务设计仍有差距

2026/06/19 01:11阅读量 4

智谱AI开源的GLM-5.2在代码能力上与顶级闭源模型Claude Opus 4.8正面竞争,尤其在大型代码库一次性开发成功率上远超以往开源模型。但在复杂业务系统设计、权限逻辑冲突处理等架构层面,Claude仍保持明显优势。测试中GLM-5.2 Token用量约为Claude的5倍,单次任务耗时近1小时。

事件概述

智谱AI于6月中旬发布并开源GLM-5.2,凭借出色的代码能力引发关注。本文将其与Claude Opus 4.8进行对比测试,从小游戏开发到近生产级企业场景,重点考察实际工程能力。

基础能力测试

  • GLM-5.2能一次性完成2048、动态特效版PVZ小游戏开发,仅存在植物卡片辨识度低的小问题。
  • 首次单次完成网页版Excel全功能开发的开源模型,仅存在小功能bug。
  • 开发耗时近1小时(主要耗时在验证环节),远长于顶尖闭源模型的10分钟内。
  • 3D引擎开发任务耗时1小时后放弃,推测为算力供给不足所致。

近生产环境测试:LuckySheet权限系统改造

测试对象为开源Excel项目LuckySheet(约5万文件),分四步实现权限升级,对比两者表现。

第一步:添加工作表防删除保护

  • Claude Opus 4.8成功实现,UI分层逻辑合理。
  • GLM-5.2功能有效,但将工作表级选项放在单元格级规则集合中,UI逻辑不合理。
  • Claude略胜一筹。

第二步:开发工作簿级统一权限管理界面

  • Claude Opus 4.8首次开发失败,经两次debug修复,存在多余权限抽象和遗漏原有功能。
  • GLM-5.2在调整提示词后无bug,界面简洁直观,更适合批量配置。
  • 两者UI各有千秋,业务理解上GLM-5.2因提示词优化占优。

第三步:扩展工作簿级导出/打印等功能权限

  • 需求相对简单,双方均顺利实现功能。
  • GLM-5.2存在文案小瑕疵,整体打平。

第四步:实现用户-角色-权限体系

第一小步(角色-权限体系)

  • 默认参数下GLM-5.2未完成,提升effort参数后成功实现核心逻辑,两者表现相近。

第二小步(用户级角色分配与自定义权限覆盖)

  • Claude Opus 4.8理清逻辑冲突,功能完整,仅粒度不足。
  • GLM-5.2未实现权限覆盖要求,自定义灵活性不足,不符合需求。
  • Claude在业务理解和逻辑处理上完胜。

测试总结

  • Token用量:Claude Opus 4.8约759k,GLM-5.2约4M,差距约5倍。
  • 工程实现能力:GLM-5.2已在5万文件级项目中与Claude正面竞争,大型代码库理解能力、一次性开发成功率远超以往开源模型,未出现上下文失忆或需求跑偏,UI设计惊艳。
  • 复杂业务系统设计:Claude Opus 4.8在权限逻辑冲突处理、架构层面仍有明显优势。
  • 耗时问题:GLM-5.2每个复杂任务耗时近1小时,主要耗时在验证环节,大概率由算力供给不足导致。
  • 说明:本次测试仅验证功能实现,不代表可直接用于生产环境,还需考虑隐含业务规则、安全性、可扩展性等要求。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。