实测GLM-5.2:开源模型代码能力逼近Claude,复杂业务设计仍有差距
2026/06/19 01:11阅读量 4
智谱AI开源的GLM-5.2在代码能力上与顶级闭源模型Claude Opus 4.8正面竞争,尤其在大型代码库一次性开发成功率上远超以往开源模型。但在复杂业务系统设计、权限逻辑冲突处理等架构层面,Claude仍保持明显优势。测试中GLM-5.2 Token用量约为Claude的5倍,单次任务耗时近1小时。
事件概述
智谱AI于6月中旬发布并开源GLM-5.2,凭借出色的代码能力引发关注。本文将其与Claude Opus 4.8进行对比测试,从小游戏开发到近生产级企业场景,重点考察实际工程能力。
基础能力测试
- GLM-5.2能一次性完成2048、动态特效版PVZ小游戏开发,仅存在植物卡片辨识度低的小问题。
- 首次单次完成网页版Excel全功能开发的开源模型,仅存在小功能bug。
- 开发耗时近1小时(主要耗时在验证环节),远长于顶尖闭源模型的10分钟内。
- 3D引擎开发任务耗时1小时后放弃,推测为算力供给不足所致。
近生产环境测试:LuckySheet权限系统改造
测试对象为开源Excel项目LuckySheet(约5万文件),分四步实现权限升级,对比两者表现。
第一步:添加工作表防删除保护
- Claude Opus 4.8成功实现,UI分层逻辑合理。
- GLM-5.2功能有效,但将工作表级选项放在单元格级规则集合中,UI逻辑不合理。
- Claude略胜一筹。
第二步:开发工作簿级统一权限管理界面
- Claude Opus 4.8首次开发失败,经两次debug修复,存在多余权限抽象和遗漏原有功能。
- GLM-5.2在调整提示词后无bug,界面简洁直观,更适合批量配置。
- 两者UI各有千秋,业务理解上GLM-5.2因提示词优化占优。
第三步:扩展工作簿级导出/打印等功能权限
- 需求相对简单,双方均顺利实现功能。
- GLM-5.2存在文案小瑕疵,整体打平。
第四步:实现用户-角色-权限体系
第一小步(角色-权限体系):
- 默认参数下GLM-5.2未完成,提升effort参数后成功实现核心逻辑,两者表现相近。
第二小步(用户级角色分配与自定义权限覆盖):
- Claude Opus 4.8理清逻辑冲突,功能完整,仅粒度不足。
- GLM-5.2未实现权限覆盖要求,自定义灵活性不足,不符合需求。
- Claude在业务理解和逻辑处理上完胜。
测试总结
- Token用量:Claude Opus 4.8约759k,GLM-5.2约4M,差距约5倍。
- 工程实现能力:GLM-5.2已在5万文件级项目中与Claude正面竞争,大型代码库理解能力、一次性开发成功率远超以往开源模型,未出现上下文失忆或需求跑偏,UI设计惊艳。
- 复杂业务系统设计:Claude Opus 4.8在权限逻辑冲突处理、架构层面仍有明显优势。
- 耗时问题:GLM-5.2每个复杂任务耗时近1小时,主要耗时在验证环节,大概率由算力供给不足导致。
- 说明:本次测试仅验证功能实现,不代表可直接用于生产环境,还需考虑隐含业务规则、安全性、可扩展性等要求。
