Qwen3.5-Max预览版登顶中国最强模型,阿里跻身全球前五
3月20日,LMArena更新榜单显示,阿里巴巴Qwen3.5-Max-Preview以1464分超越GPT5.4、Claude4.5等海外顶尖模型及全部国产竞品,问鼎中国最强大模型。该模型在数学与专家级文本能力子榜单中均位列中国第一、全球前列。基于此表现,阿里在全球大模型公司排名中升至第五,中国共有五家公司进入前十。
事件概述
3月20日,由国际开源机构LMSYS组织的第三方大模型盲测榜单LMAArena发布最新一期排名。阿里巴巴千问最新旗舰模型预览版Qwen3.5-Max-Preview首次亮相,凭借综合得分1464分,超越了包括GPT5.4、Claude4.5、Grok4.1在内的海外顶级模型,以及豆包2.0、GLM5、Kimi2.5等所有国产模型,成为中国目前性能最强的模型。
核心数据与排名表现
- 总榜排名:在考验模型绝对胜率(无风格控制)的全球总榜中,Qwen3.5-Max-Preview排名全球第六。
- 细分领域:
- 数学能力:排名全球第五、中国第一。
- 专家级文本能力:排名全球第十、中国第一。
- 公司排名:在基于各公司最强模型能力的全球大模型公司榜单中,中美两国各占据前十半壁江山。阿里位列全球前五(仅次于Anthropic、谷歌、xAI、OpenAI),字节、智谱、月之暗面、百度等中国公司也闯入全球前十。
技术背景与对比
- 代际演进:Qwen3.5系列于今年除夕发布,其中Plus版本参数为激活170亿/总参3970亿,发布后已闯入LMArena前20。本次亮相的Max预览版较上一代千问3模型性能提升明显。
- 开源情况:Qwen3.5系列共开源8款不同尺寸模型,均在同尺寸下获得SOTA(State of the Art)最佳性能。
- 未来展望:有消息称,Qwen3.5-Max正式版预计将于近期发布,届时能力或将进一步进化升级。
测评机制说明
LMArena竞技场采用双盲测试机制:由厂商自主提交模型,全球开发者在不知晓具体模型身份的情况下进行两两PK,通过投票形成最终分数和排名。该榜单被视为AI领域最公正、权威的全球大模型性能评估标准之一。
