阿里千问3.6登顶中国最强编程模型,全球盲测榜单第二

2026/04/03 09:52阅读量 1

4月3日,全球权威大模型盲测平台LMArena旗下Code Arena公布最新排名,阿里巴巴Qwen 3.6-Plus在最具挑战性的React专项榜单中位列全球第二,超越OpenAI、Google等巨头,成为该榜单上排名最高的中国模型。该模型以1452分的成绩仅次于Anthropic的Claude-Opus-4.6-Thinking(1540分),并领先GPT-5.0-High和Gemini 3.1 Pro Preview。这一成绩标志着国产模型在自主编码与端到端工程化能力上达到国际顶尖水平。

事件概述

4月3日,全球知名大模型盲测平台LMAArena旗下的Code Arena发布了新一期聚焦AI编程能力的排名榜单。阿里巴巴最新发布的Qwen 3.6-Plus在该榜单中表现优异,特别是在考察真实复杂Web开发场景下自主编码能力的React专项榜单中,成功登顶中国模型首位,并位居全球第二。

核心数据与排名

  • React专项榜单排名
    • 第一名:Anthropic Claude-Opus-4.6-Thinking(得分:1540)
    • 第二名:阿里 Qwen 3.6-Plus(得分:1452)
    • 第三名:OpenAI GPT-5.0-High(得分:1448,落后Qwen 3.6-Plus 4分)
    • 第四名:Google Gemini 3.1 Pro Preview(得分:1440,落后Qwen 3.6-Plus 12分)
  • 整体表现:在全面评估AI编程能力的Code Arena总榜中,Qwen 3.6-Plus同样位居国产模型之首。
  • 实验室排名:凭借此成绩,阿里在全球AI实验室综合排名中升至第四位,仅次于Anthropic、OpenAI和Google。

技术背景与意义

  • 测试机制:LMArena采用真实用户盲测与实时对抗排名机制,被视为AI领域最公正权威的全球性能榜单。React专项榜单要求模型具备完整的工程思维和端到端开发能力,需独立完成从项目初始化、代码编写到调试运行的全流程,是AI Coding领域最前沿、挑战性最高的方向之一。
  • 模型特性:Qwen 3.6-Plus于4月2日发布,拥有原生多模态理解与推理能力。在多项权威评测中,其以较少的参数量超越了参数量为其两倍乃至三倍的GLM-5、Kimi-K2.5等模型,展现出极高的参数效率。
  • 后续规划:Qwen 3.6-Plus是千问3.6系列的首款模型,后续将开源其他尺寸版本,性能更强的旗舰模型Qwen 3.6-Max也将于近期发布。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。