蚂蚁Inclusion AI发布100B模型「大象」：以Token效率与速度挑战SOTA

2026/04/22 18:29阅读量 2

蚂蚁集团Inclusion AI团队推出仅100B参数量的新模型「Elephant」，在保持256K上下文窗口和32K输出能力的同时，实现了同规模下的SOTA性能。实测显示该模型在代码修复、文档整理及轻量Agent任务中表现出极高的响应速度（平均时延约1秒）和极低的Token消耗，被评价为“快、准、省”的干活圣体。尽管在处理复杂长链规划或极新知识时存在局限，但其高智效比特性使其成为中小企业及高频刚需场景的理想选择。

事件概述

蚂蚁集团 Inclusion AI 团队正式发布了名为「Elephant」（大象）的神秘大模型。该模型参数量仅为 100B，却拥有 256K 上下文窗口和 32K 输出能力。在 OpenRouters 等平台的评测中，Elephant 在同规模模型中取得了 SOTA（State of the Art）成绩，并因其极高的 Token 效率受到关注。

核心信息

1. 性能表现与实测数据

响应速度：平均响应时间被压制在 1 秒左右，而同类竞品通常在 10-30 秒水平。在模拟 Agent Loop 任务中，思考仅需 10 秒，输出仅需 2 秒。
Token 效率：在权威榜单 AI BENCHY 的测试中，输出 Token 数维持在 2500 左右，避免了冗余废话导致的算力浪费。一致性分数达到 9.6 分（满分 10 分）。
实战能力：
- 代码开发：能快速生成带表单校验的 HTML/JS 代码，并在代码报错（如变量未定义）时精准定位问题并给出极简修复方案，无多余解释。
- 文档处理：能从包含大量口语化、跑题内容的 3000 字会议纪要中，精准提取结论摘要、待办清单及邮件草稿，且输出长度显著短于 Gemini-2.5-Flash-Lite。
- Agent 任务：能高效完成读取 CSV 报表、计算季度同比、生成分析结论及自检数字准确性的闭环任务。

2. 局限性说明

尽管 Elephant 主打“快、准、省”，但在以下场景存在短板：

复杂长链规划：无法独立执行涉及多步骤工具调用的战略项目（如出海市场调研、竞品分析及甘特图排期），需配合大模型进行规划。
极新知识：对于刚更新的 SDK 或 React 18 新特性等最新知识，可能因训练数据滞后产生 API 幻觉，需通过 Prompt 注入最新文档辅助。
模糊指令：若 Prompt 过于宽泛（如“写个好看的网页”），输出质量会下降，需要细致且强约束的指令。

3. 行业背景与意义

行业趋势转变：当前 AI 应用正从单纯比拼模型规模转向追求“智效比”。据《财经》报道，全球企业级 AI 应用中约 50% 的 Token 被浪费，尤其在 Agent 多轮任务中，冗余信息导致 Token 消耗指数级增长。
竞品动态：OpenAI 近期发布了 GPT-5.4 mini/nano，谷歌开源了 Gemma 4 小模型，均旨在降低延迟和成本。Elephant 的发布进一步印证了轻量化模型在预算有限、算力匮乏的中小企业中的价值。
应用场景：该模型适合无缝承接代码开发、文档处理、数据复盘及轻量 Agent 执行等高频刚需工作，是 AI 从“玩具”跨越到生产力工具的坚实底座。

阅读原文详情

事件概述

核心信息

1. 性能表现与实测数据

2. 局限性说明

3. 行业背景与意义

准备好启动您的定制项目了吗？