国产AI编程模型Qwen3.7 Max冲上全球第二,实测对比五大模型表现
2026/05/28 12:02阅读量 2
阿里发布旗舰编程模型Qwen3.7 Max,在编程竞技榜上超越GPT-5.5、Gemini 3.5 Flash等,仅次于Claude Opus 4.7。实测对比五大模型在液体晃动动画、六边形2048游戏、地铁博物馆网站等任务上的表现,结果显示Qwen3.7 Max在高质量提示词下表现优异,但简单提示词下优势不明显;接入Codex Agent后可发挥更强能力。
事件概述
阿里云发布最新旗舰模型Qwen3.7 Max,在编程竞技榜(LMSYS Chatbot Arena Coding Leaderboard)上获得全球第二名,仅次于Claude Opus 4.7。该模型在Terminal Bench、SWE Bench等传统评测中也拿下国产模型冠军。
核心测试结果
测试者将Qwen3.7 Max与DeepSeek V4、GPT-5.5(超高模式)、Gemini 3.5 Flash、Claude Opus 4.7在多个前端编程任务上进行对比,均使用相同或高度相似的提示词。
1. 液体晃动模拟
- Qwen3.7 Max:顺利完成任务,额外增加颜色自定义、摇晃、液体量调节功能。
- DeepSeek V4:功能简单但无错误。
- GPT-5.5(Codex):波浪效果不自然。
- Gemini 3.5 Flash:实现有bug(瓶子被隐藏),但附带大量自定义选项。
- Claude Opus 4.7:瓶子简陋,液体晃动像音波跳动。
2. 六边形2048游戏
- Qwen3.7 Max:界面美观,但偶尔数字叠加规则异常。
- DeepSeek V4:控制键与蜂巢格不匹配(使用WASD)。
- Claude Opus 4.7:最符合蜂巢移动规则,游戏体验最佳。
- GPT-5.5(Codex):能自动预览并修复,但方向判断不如Opus 4.7。
- Gemini 3.5 Flash:额外增加赛博、暗金、马卡三种主题背景及8-bit音效。
3. 地铁博物馆主题网站
- Qwen3.7 Max:设计较乱,文字竖排像列车但整体缺乏组织。
- Gemini 3.5 Flash:额外生成定制纪念票根生成器,体验感强。
- DeepSeek V4:计划有票务纪念和驾驶体验,但未完整实现。
- GPT-5.5(Codex):风格不错但信息量少,未理解“地铁博物馆”应介绍地铁信息。
4. 浏览器操作系统
- Qwen3.7 Max:桌面仅有一张风景图,功能简单。
- DeepSeek V4:同样简单。
- Gemini 3.5 Flash:详细设计了完整的OS界面和风格。
- GPT-5.5(Codex):同样进行了详细OS设计,有专门风格。
值得关注
- Qwen3.7 Max在简单一句话提示词下的表现并不总是领先,但当使用高质量、详细的提示词时,其能力可与其他顶级模型持平。
- 测试者按官方教程将Qwen3.7 Max接入Codex终端助手,但过程中出现BUG,提示Agent产品仍有优化空间。
- 定价方面:输入6元/百万tokens,输出18元/百万tokens(限时五折),新用户可用10元/月获得20元额度,整体价格低于GPT-5.5和Claude Opus 4.7。
