Fable 5 被封后 OpenRouter 推 Fusion API：多模型协作能否成为“平替天团”？

2026/06/22 18:03阅读量 2

2026 年 6 月，Anthropic 的 Claude Fable 5 发布仅三天即因出口管制被禁，OpenRouter 随即推出 Fusion API，通过“多模型协作”方案复刻其智力水平，成本仅为一半。Fusion 在 DRACO 基准测试中表现接近 Fable 5，但在编程、实时性和数据合规方面仍存明显短板。该事件引发行业对“多模型组合”替代单一超级模型的讨论，也暴露了地缘政治风险对模型可用性的冲击。

事件概述

2026 年 6 月 14 日，Anthropic 发布最强模型 Claude Fable 5，三天后美国政府签发紧急出口管制令，Anthropic 被迫切断全球 API 访问。API 聚合平台 OpenRouter 随即推出 Fusion API，声称用多模型组合复刻 Fable 5 的智力水平，成本仅为 Fable 5 的一半。该方案在 Perplexity AI 的深度研究基准测试 DRACO 中表现接近 Fable 5，引发行业关注。

核心原理：多模型协作（MoA）

Fusion 的实现基于三层流水线：

并行专家生成：用户提示词同时发送给最多 8 个模型（如 Fable 5、GPT-5.5、Gemini 3.1 Pro、GLM-5.2、Kimi K2.6 等），所有模型配备实时搜索和网页抓取工具。
裁判模型分析：指定一个“裁判”模型审阅所有回答，标出共识、矛盾、亮点和盲点，输出分析报告。
主笔模型定稿：裁判和主笔职能由同一个超级模型在一次推理中完成，最终输出无矛盾、逻辑连贯的回答。

OpenRouter 实现了两项关键工程优化：

透明控制权：用户可自定义专家模型、裁判模型和权重。
动态智能门控：简单问题自动分配单个廉价模型，复杂问题才启动多模型协作，降低平均成本。

成本经济学

Fable 5 定价为输入 10 美元/百万 Token、输出 50 美元/百万 Token。Fusion 按调用的模型数量计费，但通过“提示词缓存”大幅降低复用成本——多个专家模型共享同一份缓存，后续读取仅需原价的 10%-20%。

省钱场景：当单一模型无法解决的超级难题，原本需用天价模型时，用 4 个中等模型组队（含缓存）总成本低于天价模型。
费钱场景：简单问题强行启用多模型协作，会导致成本飙升。

基准测试表现

在 DRACO 测试中（10 领域 100 道复杂任务，负分淘汰制）：

排名前列的全是组合模型，远领先于单体模型。
“自己和自己组队”也能变强：两个 Claude Opus 4.8 组合得分超过单一 Opus 4.8，甚至超越 Fable 5。
中端模型组合（Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro）得分与 Fable 5 差距不到 1%。
最强组合为 Fable 5 + GPT-5.5。

局限：DRACO 仅考察纯文字英文深度研究能力，不涉及编码、多模态、长周期动态任务；裁判模型不同会导致绝对分数波动 10-25 分，但排名稳定。

三个工程短板

编程场景不实用：Fusion 本质是“智囊团”，无法胜任实时代码补全、大工程重构，且缝合代码可能因未经过编译器验证而直接报错。
非常慢：响应时间是单一模型的 2-4 倍，不适合实时客服或代码即时补全。
数据合规风险：用户提示和上下文同时发往多家服务商，企业难以控制数据留存与跨境合规。

行业影响

打破超级模型定价霸权：当“中端模型组合”可逼近顶级模型时，头部模型定价权受到挑战，平台型路由层（如 OpenRouter）可能成为流量分发入口。
地缘政治风险催生“多模型依赖”：Fable 5 被禁强化了开发者对单一模型押注的警惕，国产模型（如智谱 GLM-5.2、DeepSeek V4 Pro）迎来窗口期。
“裁判模型”成为新瓶颈：整个系统的上限由裁判模型决定，若裁判存在盲点，多模型协作会放大错误。

阅读原文详情