国产AI编程模型Qwen3.7 Max冲上全球第二,实测对比五大模型表现

2026/05/28 12:02阅读量 2

阿里发布旗舰编程模型Qwen3.7 Max,在编程竞技榜上超越GPT-5.5、Gemini 3.5 Flash等,仅次于Claude Opus 4.7。实测对比五大模型在液体晃动动画、六边形2048游戏、地铁博物馆网站等任务上的表现,结果显示Qwen3.7 Max在高质量提示词下表现优异,但简单提示词下优势不明显;接入Codex Agent后可发挥更强能力。

事件概述

阿里云发布最新旗舰模型Qwen3.7 Max,在编程竞技榜(LMSYS Chatbot Arena Coding Leaderboard)上获得全球第二名,仅次于Claude Opus 4.7。该模型在Terminal Bench、SWE Bench等传统评测中也拿下国产模型冠军。

核心测试结果

测试者将Qwen3.7 Max与DeepSeek V4、GPT-5.5(超高模式)、Gemini 3.5 Flash、Claude Opus 4.7在多个前端编程任务上进行对比,均使用相同或高度相似的提示词。

1. 液体晃动模拟

  • Qwen3.7 Max:顺利完成任务,额外增加颜色自定义、摇晃、液体量调节功能。
  • DeepSeek V4:功能简单但无错误。
  • GPT-5.5(Codex):波浪效果不自然。
  • Gemini 3.5 Flash:实现有bug(瓶子被隐藏),但附带大量自定义选项。
  • Claude Opus 4.7:瓶子简陋,液体晃动像音波跳动。

2. 六边形2048游戏

  • Qwen3.7 Max:界面美观,但偶尔数字叠加规则异常。
  • DeepSeek V4:控制键与蜂巢格不匹配(使用WASD)。
  • Claude Opus 4.7:最符合蜂巢移动规则,游戏体验最佳。
  • GPT-5.5(Codex):能自动预览并修复,但方向判断不如Opus 4.7。
  • Gemini 3.5 Flash:额外增加赛博、暗金、马卡三种主题背景及8-bit音效。

3. 地铁博物馆主题网站

  • Qwen3.7 Max:设计较乱,文字竖排像列车但整体缺乏组织。
  • Gemini 3.5 Flash:额外生成定制纪念票根生成器,体验感强。
  • DeepSeek V4:计划有票务纪念和驾驶体验,但未完整实现。
  • GPT-5.5(Codex):风格不错但信息量少,未理解“地铁博物馆”应介绍地铁信息。

4. 浏览器操作系统

  • Qwen3.7 Max:桌面仅有一张风景图,功能简单。
  • DeepSeek V4:同样简单。
  • Gemini 3.5 Flash:详细设计了完整的OS界面和风格。
  • GPT-5.5(Codex):同样进行了详细OS设计,有专门风格。

值得关注

  • Qwen3.7 Max在简单一句话提示词下的表现并不总是领先,但当使用高质量、详细的提示词时,其能力可与其他顶级模型持平。
  • 测试者按官方教程将Qwen3.7 Max接入Codex终端助手,但过程中出现BUG,提示Agent产品仍有优化空间。
  • 定价方面:输入6元/百万tokens,输出18元/百万tokens(限时五折),新用户可用10元/月获得20元额度,整体价格低于GPT-5.5和Claude Opus 4.7。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。