实测GLM-5.2：开源模型代码能力逼近Claude，复杂业务设计仍有差距

2026/06/19 01:11阅读量 4

智谱AI开源的GLM-5.2在代码能力上与顶级闭源模型Claude Opus 4.8正面竞争，尤其在大型代码库一次性开发成功率上远超以往开源模型。但在复杂业务系统设计、权限逻辑冲突处理等架构层面，Claude仍保持明显优势。测试中GLM-5.2 Token用量约为Claude的5倍，单次任务耗时近1小时。

事件概述

智谱AI于6月中旬发布并开源GLM-5.2，凭借出色的代码能力引发关注。本文将其与Claude Opus 4.8进行对比测试，从小游戏开发到近生产级企业场景，重点考察实际工程能力。

基础能力测试

GLM-5.2能一次性完成2048、动态特效版PVZ小游戏开发，仅存在植物卡片辨识度低的小问题。
首次单次完成网页版Excel全功能开发的开源模型，仅存在小功能bug。
开发耗时近1小时（主要耗时在验证环节），远长于顶尖闭源模型的10分钟内。
3D引擎开发任务耗时1小时后放弃，推测为算力供给不足所致。

近生产环境测试：LuckySheet权限系统改造

测试对象为开源Excel项目LuckySheet（约5万文件），分四步实现权限升级，对比两者表现。

第一步：添加工作表防删除保护

Claude Opus 4.8成功实现，UI分层逻辑合理。
GLM-5.2功能有效，但将工作表级选项放在单元格级规则集合中，UI逻辑不合理。
Claude略胜一筹。

第二步：开发工作簿级统一权限管理界面

Claude Opus 4.8首次开发失败，经两次debug修复，存在多余权限抽象和遗漏原有功能。
GLM-5.2在调整提示词后无bug，界面简洁直观，更适合批量配置。
两者UI各有千秋，业务理解上GLM-5.2因提示词优化占优。

第三步：扩展工作簿级导出/打印等功能权限

需求相对简单，双方均顺利实现功能。
GLM-5.2存在文案小瑕疵，整体打平。

第四步：实现用户-角色-权限体系

第一小步（角色-权限体系）：

默认参数下GLM-5.2未完成，提升effort参数后成功实现核心逻辑，两者表现相近。

第二小步（用户级角色分配与自定义权限覆盖）：

Claude Opus 4.8理清逻辑冲突，功能完整，仅粒度不足。
GLM-5.2未实现权限覆盖要求，自定义灵活性不足，不符合需求。
Claude在业务理解和逻辑处理上完胜。

测试总结

Token用量：Claude Opus 4.8约759k，GLM-5.2约4M，差距约5倍。
工程实现能力：GLM-5.2已在5万文件级项目中与Claude正面竞争，大型代码库理解能力、一次性开发成功率远超以往开源模型，未出现上下文失忆或需求跑偏，UI设计惊艳。
复杂业务系统设计：Claude Opus 4.8在权限逻辑冲突处理、架构层面仍有明显优势。
耗时问题：GLM-5.2每个复杂任务耗时近1小时，主要耗时在验证环节，大概率由算力供给不足导致。
说明：本次测试仅验证功能实现，不代表可直接用于生产环境，还需考虑隐含业务规则、安全性、可扩展性等要求。

阅读原文详情