仅靠API就能摸清GPT-5.5参数量？“不可压缩知识探针”引发社区大辩论

2026/05/01 13:08阅读量 2

研究人员提出“不可压缩知识探针（IKP）”方法，基于冷门事实记忆容量与参数规模的对数线性关系，通过黑盒API推算出GPT-5.5约9万亿参数、Claude Opus 4.7约4万亿参数等闭源模型的规模。该结果引发激烈争议，质疑集中在估算值与实际体验不符、合成数据微调可破坏“不可压缩”前提，以及架构差异可能导致重大偏差。

事件概述

李博杰等人在arXiv发布论文，提出**不可压缩知识探针（Incompressible Knowledge Probes, IKP）**框架，仅通过黑盒API调用，便可逆向估算任意大语言模型（LLM）的参数总量。研究利用1400个冷门事实问题组成的数据集，在89个参数量已知的开源模型（规模从1.35亿到1.6万亿参数）上拟合出事实准确率与参数量的对数线性关系（拟合优度R²=0.917），并据此推算多款主流闭源模型的参数规模。

核心估算结果

论文给出主流闭源模型的参数估算值（90%置信区间约为0.3至3倍）：

GPT-5.5：约9万亿参数
Claude Opus 4.7：约4万亿参数
GPT-5.4：约2.2万亿参数
Claude Sonnet 4.6：约1.7万亿参数
Gemini 2.5 Pro：约1.2万亿参数

此外，论文还发现事实记忆容量的时间系数在统计上接近零，与“模型效率随时间提升”的预判相悖，暗示推理能力基准渐趋饱和，而事实容量仍主要受物理参数规模制约。

争议焦点

1. 估算结果与体验严重不符

部分用户指出，GPT-5.4到GPT-5.5的性能提升幅度与10倍参数差距不匹配，OpenAI现有基础设施也难以支撑如此巨量模型的部署。有观点认为两家模型规模比约在2倍左右更为合理。

2. “不可压缩”前提被削弱

批评者指出，通过合成数据定向微调同样可以显著提升模型对冷门知识的掌握度，这会直接动摇“事实类知识不可压缩、仅取决于参数规模”的核心假设，使参数估计失效。

3. 与业内已知信息出入巨大

业内长期流传的GPT-4参数约1.7万亿，与论文方法回溯估算的结果差异明显；同时，Gemini 2.5 Pro与Claude Sonnet估算约1.7万亿参数，而国内模型Kimi k2.6与GLM 5.1约800亿参数，两倍左右的参数差距难以解释当前的实际性能鸿沟。

4. 架构差异未被纳入考量

建设性讨论认为，混合专家（MoE）架构与稠密模型在知识存储和压缩效率上可能存在本质不同，应将两类模型分开统计以观察趋势，否则混合估算会引入系统性偏差。

值得关注

该方法提供了一种低成本、可复现的黑盒参数探测思路，但其置信区间宽泛，且严重依赖“事实知识不可压缩”的假设。社区普遍认为，这些数字不应被视为事实，而应结合架构、训练数据差异等因素谨慎解读。尽管争议巨大，IKP框架依然为探索闭源模型规模提供了一条新路径，并再次引发了关于模型记忆与推理能力边界的讨论。

阅读原文详情