Claude Fable 5 首日实测:能力飙升打破模型进化规律,成本高昂成隐忧
2026/06/10 13:54阅读量 41
Anthropic 发布新一代模型 Claude Fable 5,首日实测显示其在多模态生成、代码重构、3D 构建等任务上表现远超 GPT-5.5 和上代旗舰 Opus 4.8,能力增长曲线冲出了传统数据趋势线。但实测也暴露了高昂的 token 消耗和偶发的代码不可运行问题。
事件概述
Anthropic 于 2026 年 6 月 10 日深夜发布 Claude Fable 5,官方定级为“Mythos 神话级”新段位。发布首日,全网大量用户参与实测,从多维度展示其能力提升幅度,但也曝出成本过高、部分任务产出不可用等短板。
核心实测表现
- 与 GPT-5.5 对比: 网友让两位模型在《我的世界》中创建克隆版推特。Claude Fable 5 生成了结构完整的笔记本电脑造型,键盘、底座、UI 界面清晰,像素风细节和层次感丰富。GPT-5.5 生成的结果排版混乱,文字倒置、超出屏幕。
- 设计能力: 用一句提示词复刻 Photoshop,实现修图、调色、特效、创意绘画全套功能,能将经典《创造亚当》转化为赛博朋克风格,色彩分离、颗粒质感、矩阵代码等特效精准还原。
- 游戏开发: 一次推理即可生成完整游戏框架,以《只有一道门》为例,核心玩法、关卡逻辑、交互动画全部落地。
- 网站与 3D 世界: 用户让 Fable 5 为其自身制作网站,效果精美;还有人基于 Three.js 构建完整 3D 世界,打开浏览器即可直接运行,仅凭几行提示词和不到 1 小时完成。
- 代码重构能力: 一用户将杂乱老旧代码库交由 Fable 5 全面重构,模型自动触发 67 次工具调用,生成超百万行新代码,新增 24 个文件,完成架构拆分与模块化。但该套代码最终无法正常运行。另一用户成功用其清理项目冗余代码,删除了 7000 行无效代码,精简后系统运行丝滑且原有功能完好。
关键数据与趋势
专业玩家复盘 FC Diamond、SWE-Bench Pro 等权威榜单后指出,Claude Fable 5 的能力增长曲线打破了过往 AI 模型平稳规律。上代旗舰 Opus 4.8 在 Diamond 榜单成功率为约 14%,Fable 5 直接冲到 30% 以上,翻了一倍多。
成本与局限性
- 消耗极高: 一次代码精简操作耗掉了 30% 的额度。用户反馈“钱包已空”,高昂成本成为实际部署的主要障碍。
- 可靠性问题: 尽管能大规模重构代码,但重构后的代码可能无法正常运行。
值得关注
- 能力跨度已超越单纯模型迭代的线性预期,可能推动行业重新评估大模型能力上限。
- 成本与可靠性之间的平衡将是 Claude Fable 5 能否被广泛采用的关键制约因素。
