蚂蚁百灵开源Ring-2.6-1T,Agent执行能力全面提升

2026/05/15 15:14阅读量 2

蚂蚁百灵于5月15日正式开源旗舰思考模型Ring-2.6-1T,权重同步上线Hugging Face和ModelScope。模型引入可调节的推理强度机制(high/xhigh),在Agent场景和数学推理等任务中表现突出,同时强调Token效率。同期发布的Ling-2.6-flash匿名测试版在OpenRouter上连续多日位列Trending榜首,日均tokens调用量达100B级别。

事件概述

蚂蚁百灵于2026年5月15日正式开源其旗舰级思考模型 Ring-2.6-1T,权重文件同步上线 Hugging Face 和 ModelScope 平台。此前该模型已在 OpenRouter 上开放限时免费 API 体验。

核心信息

  • 按需思考机制:模型引入可调节的 Reasoning Effort 机制,支持 high 和 xhigh 两种推理强度。high 模式面向高频 Agent 工作流(多轮对话、工具协作、任务拆解),追求更高效率;xhigh 模式面向数学竞赛、科研分析等高难任务,释放能力上限。
  • 评测成绩
    • high 模式下:PinchBench 得分 87.60(高于 GPT-5.4 xHigh 和 Gemini-3.1-Pro high),Tau2-Bench Telecom 达到 95.32,Agent 场景执行能力显著。
    • xhigh 模式下:AIME 26 得分 95.83,接近多家头部模型水平;GPQA Diamond 达到 88.27,体现稳健的科学知识与复杂推理能力。
  • 训练架构:采用异步(Async)强化学习训练架构,将策略采样与参数更新解耦为独立流水线,解决传统同步训练中 GPU 资源等待、吞吐不足的问题。同时引入此前在 Ring-1T 中验证过的“棒冰算法”以稳定训练。相关技术细节将在后续技术报告中公开。

值得关注

近一个月内,百灵迭代发布并开源了多款模型,覆盖 Ling 语言模型和 Ring 推理模型。相较于追求更大参数规模或更高单点分数,百灵更强调“真实生产环境使用”,系列模型集体切入“Token Efficiency”,用更少的 token 完成高质量任务输出。市场反馈上,Ling-2.6-flash 的匿名测试版本“Elephant Alpha”在 OpenRouter 上线后连续多日位列 Trending 榜首,日均 tokens 调用量达到 100B 级别。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。