Code Arena 编程榜放榜:阿里 Qwen3.7-Max 升至全球第二,超越 GPT-5.5 与 Gemini-3.5
2026/05/26 11:58阅读量 2
5月26日,第三方编程榜单 Code Arena 公布最新结果,阿里 Qwen3.7-Max 以1541分排名全球第二,仅次于 Claude 系列。该模型在代码生成、长程自主任务等能力上表现突出,成为首个突破1540分的国产大模型。
事件概述
5月26日凌晨,全球第三方编程榜单 Code Arena 更新结果。阿里通义千问最新旗舰模型 Qwen3.7-Max 获得1541分,超越 GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6 等模型,仅次于 Claude 系列(Claude-Opus-4.7 和 4.6),在大模型厂商中位列全球第二。这是国产大模型首次在该榜单突破1540分大关。
核心信息
Code Arena 评测方式
Code Arena 是 LMArena 推出的盲测榜单,与传统的代码基准测试不同,它不考核孤立代码片段或算法题,而是要求模型从零生成完整的、可交互的 Web 应用,由开发者出题、用户对匿名模型结果进行两两 PK,最终投票生成排名,被视作目前全球最具公信力的 AI 编程能力评测之一。
Qwen3.7-Max 能力特点
- 面向 Agent 打造,在编程、智能体、长程任务等核心能力上实现大幅突破。
- 可在数小时内独立完成专业团队耗时2周的复杂项目端到端交付。
- 支持持续运行35小时、累计超1000次工具调用的复杂长程任务,能自我编程优化芯片内核。
开发者反馈
多位开发者评价其“长程自主执行能力令人印象深刻”“是真正能把事情做完的智能体基座模型”。有 AI 机构在相同提示词下横评了 Qwen3.7-Max、Claude-4.7 与 GPT-5.5,发现千问3.7 较上代性能提升幅度最大、推理成本最低,在输出速度和生成质量上均有明显优势。
(本文根据雷峰网报道提炼,仅保留与事件核心相关的事实和数据。)
