GPT-5.5和Claude Opus 4.7在全新逻辑测试中得分低于1%，人类满分

2026/05/02 13:40阅读量 61

在ARC-AGI-3基准测试中，GPT-5.5得分0.43%，Claude Opus 4.7得分0.18%，人类首次接触即可100%完成。测试由135个全新逻辑环境组成，要求探索、推理和适应。分析揭示了模型三大失败模式：局部反馈无法整合为全局规则、被训练数据误导、侥幸通关却不理解规则。两种模型失败风格不同：Opus 4.7过度自信但压缩错误，GPT-5.5思维发散无法有效压缩。测试表明当前AI缺乏抽象推理和新颖环境适应能力，AGI仍需突破核心瓶颈。

事件概述

在ARC-AGI-3基准测试中，堪称最先进的两款模型——OpenAI的GPT-5.5和Anthropic的Claude Opus 4.7——得分均低于1%（GPT-5.5：0.43%，Opus 4.7：0.18%），而人类在首次接触时即可100%解决问题。该测试由Keras之父François Chollet设计，包含135个手工构建的全新逻辑环境，测试对象无法获得任何玩法说明，必须通过探索、假设验证和错误恢复来构建世界模型。

三大核心失败模式

局部反馈≠全局理解：模型能识别单步动作效果（如旋转物体），但无法整合为完整策略。例如Opus 4.7在任务“cd82”中意识到“ACTION3”可旋转容器，但始终不能形成“先调整方向再蘸取油漆”的逻辑。
训练数据绑架思维：模型将新任务误认为是已知游戏（如俄罗斯方块、打砖块），导致行动被带偏。GPT-5.5在“cd82”中被锚定在“流沙”或“填充颜色”的机制上。
侥幸通关≠真正学习：模型虽通过某一关卡，但底层理解错误。Opus 4.7在“ka59”中将点击误认为是“传送角色”，导致后续关卡彻底崩溃。这种“局部胜利”反而强化了错误的认知框架。

GPT-5.5 vs Opus 4.7：不同的失败风格

Opus 4.7表现为“过度自信的直觉主义者”，快速形成错误理论并坚定执行（如任务“cn04”中的计时假设）；GPT-5.5则像“思维发散的理论家”，虽能提出正确思路（如镜像效应），但不断在多种假设间切换，无法专注执行。根本差异在于“压缩能力”：Opus过度压缩观察为错误模型，GPT-5.5无法完成有效压缩。

AGI关键启示

当前AI依赖文化知识和训练数据，面对全新逻辑环境时表现甚至不如6岁儿童。ARC-AGI-3证明，实现人类级智能需突破“新颖性、模糊性、规划、适应性”四大核心能力。人工智能距离真正的抽象推理和通用智能仍有巨大鸿沟。

阅读原文详情

事件概述

三大核心失败模式

GPT-5.5 vs Opus 4.7：不同的失败风格

AGI关键启示

准备好启动您的定制项目了吗？