Code Arena编程榜单：Qwen3.7-Max仅次于Claude，阿里位列全球第二

2026/05/26 13:32阅读量 4

5月26日，全球第三方编程盲测平台Code Arena发布最新榜单，阿里Qwen3.7-Max得分1541，超越GPT-5.5、Gemini-3.5-Flash等模型，位居全球第二，仅次于Claude系列，成为唯一突破1540分的国产大模型。该模型在编程、智能体、长程任务上能力突出，可实现数小时完成复杂项目、连续运行35小时等场景。

事件概述

5月26日凌晨，全球权威第三方编程盲测平台Code Arena公布最新排名。阿里旗舰模型Qwen3.7-Max以1541分的成绩，超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等模型，在大模型厂商中排名全球第二，仅次于Claude系列。这标志着阿里千问3.7在代码理解与生成领域进入全球第一梯队。

核心信息

评测平台：Code Arena由知名第三方大模型盲测平台LMArena推出。与传统的代码基准测试不同，Code Arena由开发者出题，要求模型从零生成完整的、可交互的Web应用程序，并由用户对匿名模型进行两两PK，通过投票综合生成榜单，被认为是最具公信力的AI编程能力评测之一。
排名亮点：千问3.7模型编程能力位居前4，打破此前由Claude-Opus-4.7和4.6统治的格局。Qwen3.7-Max是目前榜单中唯一突破1540分大关的国产大模型。
模型能力：面向Agent打造的Qwen3.7-Max在编程、智能体、长程任务等核心能力上实现大幅突破。它能在数小时内独立完成专业团队耗时2周的复杂项目端到端交付，甚至可以持续运行35小时、累计超1000次工具调用，自主编程优化芯片内核。

值得关注

Qwen3.7-Max发布后引发业界关注。多位开发者评价其“长程自主执行能力令人印象深刻”、“是真正能把事情做完的智能体基座模型”。有AI机构同步横评Qwen3.7-Max、Claude-4.7与GPT-5.5，发现千问3.7较上代性能提升幅度最大、推理成本最低，在输出速度和生成质量两个维度上相较其他模型均有明显优势。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？