GPT-5.5和Claude Opus 4.7在全新逻辑测试中得分低于1%,人类满分

2026/05/02 13:40阅读量 61

在ARC-AGI-3基准测试中,GPT-5.5得分0.43%,Claude Opus 4.7得分0.18%,人类首次接触即可100%完成。测试由135个全新逻辑环境组成,要求探索、推理和适应。分析揭示了模型三大失败模式:局部反馈无法整合为全局规则、被训练数据误导、侥幸通关却不理解规则。两种模型失败风格不同:Opus 4.7过度自信但压缩错误,GPT-5.5思维发散无法有效压缩。测试表明当前AI缺乏抽象推理和新颖环境适应能力,AGI仍需突破核心瓶颈。

事件概述

在ARC-AGI-3基准测试中,堪称最先进的两款模型——OpenAI的GPT-5.5和Anthropic的Claude Opus 4.7——得分均低于1%(GPT-5.5:0.43%,Opus 4.7:0.18%),而人类在首次接触时即可100%解决问题。该测试由Keras之父François Chollet设计,包含135个手工构建的全新逻辑环境,测试对象无法获得任何玩法说明,必须通过探索、假设验证和错误恢复来构建世界模型。

三大核心失败模式

  • 局部反馈≠全局理解:模型能识别单步动作效果(如旋转物体),但无法整合为完整策略。例如Opus 4.7在任务“cd82”中意识到“ACTION3”可旋转容器,但始终不能形成“先调整方向再蘸取油漆”的逻辑。
  • 训练数据绑架思维:模型将新任务误认为是已知游戏(如俄罗斯方块、打砖块),导致行动被带偏。GPT-5.5在“cd82”中被锚定在“流沙”或“填充颜色”的机制上。
  • 侥幸通关≠真正学习:模型虽通过某一关卡,但底层理解错误。Opus 4.7在“ka59”中将点击误认为是“传送角色”,导致后续关卡彻底崩溃。这种“局部胜利”反而强化了错误的认知框架。

GPT-5.5 vs Opus 4.7:不同的失败风格

Opus 4.7表现为“过度自信的直觉主义者”,快速形成错误理论并坚定执行(如任务“cn04”中的计时假设);GPT-5.5则像“思维发散的理论家”,虽能提出正确思路(如镜像效应),但不断在多种假设间切换,无法专注执行。根本差异在于“压缩能力”:Opus过度压缩观察为错误模型,GPT-5.5无法完成有效压缩。

AGI关键启示

当前AI依赖文化知识和训练数据,面对全新逻辑环境时表现甚至不如6岁儿童。ARC-AGI-3证明,实现人类级智能需突破“新颖性、模糊性、规划、适应性”四大核心能力。人工智能距离真正的抽象推理和通用智能仍有巨大鸿沟。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。