Fable 5 被封后 OpenRouter 推 Fusion API:多模型协作能否成为“平替天团”?

2026/06/22 18:03阅读量 2

2026 年 6 月,Anthropic 的 Claude Fable 5 发布仅三天即因出口管制被禁,OpenRouter 随即推出 Fusion API,通过“多模型协作”方案复刻其智力水平,成本仅为一半。Fusion 在 DRACO 基准测试中表现接近 Fable 5,但在编程、实时性和数据合规方面仍存明显短板。该事件引发行业对“多模型组合”替代单一超级模型的讨论,也暴露了地缘政治风险对模型可用性的冲击。

事件概述

2026 年 6 月 14 日,Anthropic 发布最强模型 Claude Fable 5,三天后美国政府签发紧急出口管制令,Anthropic 被迫切断全球 API 访问。API 聚合平台 OpenRouter 随即推出 Fusion API,声称用多模型组合复刻 Fable 5 的智力水平,成本仅为 Fable 5 的一半。该方案在 Perplexity AI 的深度研究基准测试 DRACO 中表现接近 Fable 5,引发行业关注。

核心原理:多模型协作(MoA)

Fusion 的实现基于三层流水线:

  1. 并行专家生成:用户提示词同时发送给最多 8 个模型(如 Fable 5、GPT-5.5、Gemini 3.1 Pro、GLM-5.2、Kimi K2.6 等),所有模型配备实时搜索和网页抓取工具。
  2. 裁判模型分析:指定一个“裁判”模型审阅所有回答,标出共识、矛盾、亮点和盲点,输出分析报告。
  3. 主笔模型定稿:裁判和主笔职能由同一个超级模型在一次推理中完成,最终输出无矛盾、逻辑连贯的回答。

OpenRouter 实现了两项关键工程优化:

  • 透明控制权:用户可自定义专家模型、裁判模型和权重。
  • 动态智能门控:简单问题自动分配单个廉价模型,复杂问题才启动多模型协作,降低平均成本。

成本经济学

Fable 5 定价为输入 10 美元/百万 Token、输出 50 美元/百万 Token。Fusion 按调用的模型数量计费,但通过“提示词缓存”大幅降低复用成本——多个专家模型共享同一份缓存,后续读取仅需原价的 10%-20%。

省钱场景:当单一模型无法解决的超级难题,原本需用天价模型时,用 4 个中等模型组队(含缓存)总成本低于天价模型。
费钱场景:简单问题强行启用多模型协作,会导致成本飙升。

基准测试表现

在 DRACO 测试中(10 领域 100 道复杂任务,负分淘汰制):

  • 排名前列的全是组合模型,远领先于单体模型。
  • “自己和自己组队”也能变强:两个 Claude Opus 4.8 组合得分超过单一 Opus 4.8,甚至超越 Fable 5。
  • 中端模型组合(Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro)得分与 Fable 5 差距不到 1%。
  • 最强组合为 Fable 5 + GPT-5.5。

局限:DRACO 仅考察纯文字英文深度研究能力,不涉及编码、多模态、长周期动态任务;裁判模型不同会导致绝对分数波动 10-25 分,但排名稳定。

三个工程短板

  1. 编程场景不实用:Fusion 本质是“智囊团”,无法胜任实时代码补全、大工程重构,且缝合代码可能因未经过编译器验证而直接报错。
  2. 非常慢:响应时间是单一模型的 2-4 倍,不适合实时客服或代码即时补全。
  3. 数据合规风险:用户提示和上下文同时发往多家服务商,企业难以控制数据留存与跨境合规。

行业影响

  • 打破超级模型定价霸权:当“中端模型组合”可逼近顶级模型时,头部模型定价权受到挑战,平台型路由层(如 OpenRouter)可能成为流量分发入口。
  • 地缘政治风险催生“多模型依赖”:Fable 5 被禁强化了开发者对单一模型押注的警惕,国产模型(如智谱 GLM-5.2、DeepSeek V4 Pro)迎来窗口期。
  • “裁判模型”成为新瓶颈:整个系统的上限由裁判模型决定,若裁判存在盲点,多模型协作会放大错误。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。