Code Arena 编程榜放榜：阿里 Qwen3.7-Max 升至全球第二，超越 GPT-5.5 与 Gemini-3.5

2026/05/26 11:58阅读量 2

5月26日，第三方编程榜单 Code Arena 公布最新结果，阿里 Qwen3.7-Max 以1541分排名全球第二，仅次于 Claude 系列。该模型在代码生成、长程自主任务等能力上表现突出，成为首个突破1540分的国产大模型。

事件概述

5月26日凌晨，全球第三方编程榜单 Code Arena 更新结果。阿里通义千问最新旗舰模型 Qwen3.7-Max 获得1541分，超越 GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6 等模型，仅次于 Claude 系列（Claude-Opus-4.7 和 4.6），在大模型厂商中位列全球第二。这是国产大模型首次在该榜单突破1540分大关。

核心信息

Code Arena 评测方式

Code Arena 是 LMArena 推出的盲测榜单，与传统的代码基准测试不同，它不考核孤立代码片段或算法题，而是要求模型从零生成完整的、可交互的 Web 应用，由开发者出题、用户对匿名模型结果进行两两 PK，最终投票生成排名，被视作目前全球最具公信力的 AI 编程能力评测之一。

Qwen3.7-Max 能力特点

面向 Agent 打造，在编程、智能体、长程任务等核心能力上实现大幅突破。
可在数小时内独立完成专业团队耗时2周的复杂项目端到端交付。
支持持续运行35小时、累计超1000次工具调用的复杂长程任务，能自我编程优化芯片内核。

开发者反馈

多位开发者评价其“长程自主执行能力令人印象深刻”“是真正能把事情做完的智能体基座模型”。有 AI 机构在相同提示词下横评了 Qwen3.7-Max、Claude-4.7 与 GPT-5.5，发现千问3.7 较上代性能提升幅度最大、推理成本最低，在输出速度和生成质量上均有明显优势。

（本文根据雷峰网报道提炼，仅保留与事件核心相关的事实和数据。）

阅读原文详情

事件概述

核心信息

Code Arena 评测方式

Qwen3.7-Max 能力特点

开发者反馈

准备好启动您的定制项目了吗？