仅靠API就能摸清GPT-5.5参数量?“不可压缩知识探针”引发社区大辩论
研究人员提出“不可压缩知识探针(IKP)”方法,基于冷门事实记忆容量与参数规模的对数线性关系,通过黑盒API推算出GPT-5.5约9万亿参数、Claude Opus 4.7约4万亿参数等闭源模型的规模。该结果引发激烈争议,质疑集中在估算值与实际体验不符、合成数据微调可破坏“不可压缩”前提,以及架构差异可能导致重大偏差。
事件概述
李博杰等人在arXiv发布论文,提出**不可压缩知识探针(Incompressible Knowledge Probes, IKP)**框架,仅通过黑盒API调用,便可逆向估算任意大语言模型(LLM)的参数总量。研究利用1400个冷门事实问题组成的数据集,在89个参数量已知的开源模型(规模从1.35亿到1.6万亿参数)上拟合出事实准确率与参数量的对数线性关系(拟合优度R²=0.917),并据此推算多款主流闭源模型的参数规模。
核心估算结果
论文给出主流闭源模型的参数估算值(90%置信区间约为0.3至3倍):
- GPT-5.5:约9万亿参数
- Claude Opus 4.7:约4万亿参数
- GPT-5.4:约2.2万亿参数
- Claude Sonnet 4.6:约1.7万亿参数
- Gemini 2.5 Pro:约1.2万亿参数
此外,论文还发现事实记忆容量的时间系数在统计上接近零,与“模型效率随时间提升”的预判相悖,暗示推理能力基准渐趋饱和,而事实容量仍主要受物理参数规模制约。
争议焦点
1. 估算结果与体验严重不符
部分用户指出,GPT-5.4到GPT-5.5的性能提升幅度与10倍参数差距不匹配,OpenAI现有基础设施也难以支撑如此巨量模型的部署。有观点认为两家模型规模比约在2倍左右更为合理。
2. “不可压缩”前提被削弱
批评者指出,通过合成数据定向微调同样可以显著提升模型对冷门知识的掌握度,这会直接动摇“事实类知识不可压缩、仅取决于参数规模”的核心假设,使参数估计失效。
3. 与业内已知信息出入巨大
业内长期流传的GPT-4参数约1.7万亿,与论文方法回溯估算的结果差异明显;同时,Gemini 2.5 Pro与Claude Sonnet估算约1.7万亿参数,而国内模型Kimi k2.6与GLM 5.1约800亿参数,两倍左右的参数差距难以解释当前的实际性能鸿沟。
4. 架构差异未被纳入考量
建设性讨论认为,混合专家(MoE)架构与稠密模型在知识存储和压缩效率上可能存在本质不同,应将两类模型分开统计以观察趋势,否则混合估算会引入系统性偏差。
值得关注
该方法提供了一种低成本、可复现的黑盒参数探测思路,但其置信区间宽泛,且严重依赖“事实知识不可压缩”的假设。社区普遍认为,这些数字不应被视为事实,而应结合架构、训练数据差异等因素谨慎解读。尽管争议巨大,IKP框架依然为探索闭源模型规模提供了一条新路径,并再次引发了关于模型记忆与推理能力边界的讨论。
