阿里Qwen3.6-Plus登顶中国最强编程模型,全球盲测榜第二

2026/04/03 10:23阅读量 3

在权威大模型盲测平台LMArena旗下的Code Arena榜单中,阿里巴巴最新发布的Qwen3.6-Plus以1452分位列React专项榜单全球第二,超越OpenAI、Google等巨头,成为该榜单排名最高的中国模型。该模型在自主编码和端到端开发能力上表现突出,得分仅次于Anthropic的Claude-Opus-4.6-Thinking,并领先于GPT-5.0-High和Gemini 3.1 Pro Preview。凭借此成绩,阿里在全球AI实验室排名中升至第四位。

事件概述

4月3日,全球知名大模型盲测平台LMAArena旗下聚焦AI编程能力的Code Arena公布新一期排名。阿里巴巴最新一代大语言模型Qwen3.6-Plus(千问3.6)在该榜单的React专项赛道中取得优异成绩,成为全球排名第二的中国大模型。

核心数据与排名

  • 榜单机制:Code Arena采用真实用户盲测与实时对抗排名机制,重点考察模型在复杂Web开发场景下的自主编码、工程思维及端到端开发能力(从项目初始化到调试运行全流程)。
  • React专项榜单得分
    • 第1名:Anthropic - Claude-Opus-4.6-Thinking(1540分)
    • 第2名:Alibaba - Qwen3.6-Plus(1452分)
    • 第3名:OpenAI - GPT-5.0-High(1448分,落后Qwen3.6-Plus 4分)
    • 第4名:Google - Gemini 3.1 Pro Preview(1440分,落后Qwen3.6-Plus 12分)
  • 国产模型地位:在全面评估AI编程能力的Code Arena总榜中,Qwen3.6-Plus位居国产模型之首。

技术背景与意义

  • 模型特性:Qwen3.6-Plus是阿里于4月2日发布的新一代模型,具备原生多模态理解与推理能力,在代码生成与Agent(智能体)任务上表现突出。评测显示,其以更少的参数量实现了超越参数量为其两倍乃至三倍的GLM-5、Kimi-K2.5等模型的编程性能。
  • 行业影响:该成绩标志着Qwen3.6-Plus在最具挑战性的AI Coding和Agent任务中,展现出与全球顶级大模型比肩甚至更优的工程化能力。基于此表现,阿里在全球AI实验室排名中升至第四位,仅次于Anthropic、OpenAI和Google。

后续规划

据悉,Qwen3.6-Plus是千问3.6系列的首款模型。后续计划包括开源其他尺寸的千问3.6模型,以及发布性能更强的旗舰版本Qwen3.6-Max

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。