通义实验室发布 Qwen3.7-Max:全面智能体模型,多项基准领先

2026/05/20 11:31阅读量 10

通义实验室推出迄今最全面的智能体模型 Qwen3.7-Max,即将通过 API 提供服务。该模型在编程、通用智能体、推理及多语言等多项基准上取得领先,尤其在长周期自主执行(35 小时、超 1000 次工具调用)中保持了连贯推理,并可无缝集成至 Claude Code、OpenClaw 等主流框架。

事件概述

通义实验室正式发布 Qwen3.7-Max,定位为全能的智能体基座模型,覆盖编程、办公自动化、长周期自主任务等场景,即将通过 API 上线。

核心能力与表现

编程智能体

  • SWE-Pro:60.6
  • SWE-Multilingual:78.3
  • SciCode:53.5
  • QwenSVG:1608
  • Terminal Bench 2.0-Terminus:69.7(超越 DS-V4-Pro Max 的 67.9)
  • SWE-Verified:80.4(与 Opus-4.6 Max 的 80.8 和 DS-V4-Pro Max 的 80.6 相当)

通用智能体

  • MCP-Mark:60.8(vs GLM-5.1 的 57.5)
  • MCP-Atlas:76.4(vs Opus-4.6 的 75.8)
  • Skillbench:59.2(vs K2.6 的 56.2)
  • Kernel Bench L3:1.98 倍中位数加速,96% 加速率
  • BFCL-V4:75.0
  • Qwenclaw:64.3
  • ClawEval:65.2
  • SpreadSheetBench-v1:87.0(办公自动化顶尖)

推理能力

  • GPQA Diamond:92.4(vs Opus-4.6 的 91.3)
  • HLE:41.4(vs Opus-4.6 的 40.0)
  • HMMT 2026 Feb:97.1(vs Opus-4.6 的 96.2)
  • IMOAnswerBench:90.0(vs DS-V4-Pro 的 89.8)
  • Apex:44.5(vs DS-V4-Pro 的 38.3)

通用能力与多语言

  • IFBench:79.1(vs DS-V4-Pro 的 77.0)
  • WMT24++:85.8
  • MAXIFE:89.2
  • SuperGPQA:73.6
  • QwenWorldBench:57.3

值得关注

  • 在长达 35 小时、超过 1000 次工具调用的全自主内核优化实验中,模型保持了连贯推理,验证了长周期执行稳定性。
  • 可无缝集成至 Claude Code、OpenClaw、Qwen Code 等主流智能体框架和编程助手。
  • 训练环境在 Qwen3.5 基础上大幅扩展了质量与多样性。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。