通义实验室发布 Qwen3.7-Max:全面智能体模型,多项基准领先
2026/05/20 11:31阅读量 10
通义实验室推出迄今最全面的智能体模型 Qwen3.7-Max,即将通过 API 提供服务。该模型在编程、通用智能体、推理及多语言等多项基准上取得领先,尤其在长周期自主执行(35 小时、超 1000 次工具调用)中保持了连贯推理,并可无缝集成至 Claude Code、OpenClaw 等主流框架。
事件概述
通义实验室正式发布 Qwen3.7-Max,定位为全能的智能体基座模型,覆盖编程、办公自动化、长周期自主任务等场景,即将通过 API 上线。
核心能力与表现
编程智能体
- SWE-Pro:60.6
- SWE-Multilingual:78.3
- SciCode:53.5
- QwenSVG:1608
- Terminal Bench 2.0-Terminus:69.7(超越 DS-V4-Pro Max 的 67.9)
- SWE-Verified:80.4(与 Opus-4.6 Max 的 80.8 和 DS-V4-Pro Max 的 80.6 相当)
通用智能体
- MCP-Mark:60.8(vs GLM-5.1 的 57.5)
- MCP-Atlas:76.4(vs Opus-4.6 的 75.8)
- Skillbench:59.2(vs K2.6 的 56.2)
- Kernel Bench L3:1.98 倍中位数加速,96% 加速率
- BFCL-V4:75.0
- Qwenclaw:64.3
- ClawEval:65.2
- SpreadSheetBench-v1:87.0(办公自动化顶尖)
推理能力
- GPQA Diamond:92.4(vs Opus-4.6 的 91.3)
- HLE:41.4(vs Opus-4.6 的 40.0)
- HMMT 2026 Feb:97.1(vs Opus-4.6 的 96.2)
- IMOAnswerBench:90.0(vs DS-V4-Pro 的 89.8)
- Apex:44.5(vs DS-V4-Pro 的 38.3)
通用能力与多语言
- IFBench:79.1(vs DS-V4-Pro 的 77.0)
- WMT24++:85.8
- MAXIFE:89.2
- SuperGPQA:73.6
- QwenWorldBench:57.3
值得关注
- 在长达 35 小时、超过 1000 次工具调用的全自主内核优化实验中,模型保持了连贯推理,验证了长周期执行稳定性。
- 可无缝集成至 Claude Code、OpenClaw、Qwen Code 等主流智能体框架和编程助手。
- 训练环境在 Qwen3.5 基础上大幅扩展了质量与多样性。
