国产AI编程模型Qwen3.7 Max冲上全球第二，实测对比五大模型表现

2026/05/28 12:02阅读量 2

阿里发布旗舰编程模型Qwen3.7 Max，在编程竞技榜上超越GPT-5.5、Gemini 3.5 Flash等，仅次于Claude Opus 4.7。实测对比五大模型在液体晃动动画、六边形2048游戏、地铁博物馆网站等任务上的表现，结果显示Qwen3.7 Max在高质量提示词下表现优异，但简单提示词下优势不明显；接入Codex Agent后可发挥更强能力。

事件概述

阿里云发布最新旗舰模型Qwen3.7 Max，在编程竞技榜（LMSYS Chatbot Arena Coding Leaderboard）上获得全球第二名，仅次于Claude Opus 4.7。该模型在Terminal Bench、SWE Bench等传统评测中也拿下国产模型冠军。

核心测试结果

测试者将Qwen3.7 Max与DeepSeek V4、GPT-5.5（超高模式）、Gemini 3.5 Flash、Claude Opus 4.7在多个前端编程任务上进行对比，均使用相同或高度相似的提示词。

1. 液体晃动模拟

Qwen3.7 Max：顺利完成任务，额外增加颜色自定义、摇晃、液体量调节功能。
DeepSeek V4：功能简单但无错误。
GPT-5.5（Codex）：波浪效果不自然。
Gemini 3.5 Flash：实现有bug（瓶子被隐藏），但附带大量自定义选项。
Claude Opus 4.7：瓶子简陋，液体晃动像音波跳动。

2. 六边形2048游戏

Qwen3.7 Max：界面美观，但偶尔数字叠加规则异常。
DeepSeek V4：控制键与蜂巢格不匹配（使用WASD）。
Claude Opus 4.7：最符合蜂巢移动规则，游戏体验最佳。
GPT-5.5（Codex）：能自动预览并修复，但方向判断不如Opus 4.7。
Gemini 3.5 Flash：额外增加赛博、暗金、马卡三种主题背景及8-bit音效。

3. 地铁博物馆主题网站

Qwen3.7 Max：设计较乱，文字竖排像列车但整体缺乏组织。
Gemini 3.5 Flash：额外生成定制纪念票根生成器，体验感强。
DeepSeek V4：计划有票务纪念和驾驶体验，但未完整实现。
GPT-5.5（Codex）：风格不错但信息量少，未理解“地铁博物馆”应介绍地铁信息。

4. 浏览器操作系统

Qwen3.7 Max：桌面仅有一张风景图，功能简单。
DeepSeek V4：同样简单。
Gemini 3.5 Flash：详细设计了完整的OS界面和风格。
GPT-5.5（Codex）：同样进行了详细OS设计，有专门风格。

值得关注

Qwen3.7 Max在简单一句话提示词下的表现并不总是领先，但当使用高质量、详细的提示词时，其能力可与其他顶级模型持平。
测试者按官方教程将Qwen3.7 Max接入Codex终端助手，但过程中出现BUG，提示Agent产品仍有优化空间。
定价方面：输入6元/百万tokens，输出18元/百万tokens（限时五折），新用户可用10元/月获得20元额度，整体价格低于GPT-5.5和Claude Opus 4.7。

阅读原文详情