Redis之父驳斥API蒸馏论:美国AI圈的偏见与技术误解
2026/06/16 17:13阅读量 2
Redis之父antirez公开驳斥美国AI圈对中国大模型的“API蒸馏抄袭”论调,从技术层面论证通过API无法完成经典知识蒸馏,并指出DeepSeek已公开训练细节且被社区复现。同时,多位技术专家指出“蒸馏”一词已被商业利益方武器化为道德术语,中国AI实验室的进步源于扎实的工程能力与开源文化,而非所谓的“捷径”。
事件概述
2026年6月15日,Redis之父Salvatore Sanfilippo(antirez)在X平台连续发布推文,强烈反驳美国AI圈流行的“中国大模型通过API蒸馏美国顶级模型实现快速进步”的说法。他指出,通过API进行模型蒸馏在技术层面不可能,并质疑舆论场对中国AI实验室的偏见。此前,Anthropic曾以“异常规模查询”为由暂停部分前沿模型的外国访问,进一步激化讨论。
核心信息
-
antirez的“不可能三角”论证
- 数据不足:经典蒸馏需要访问完整logits和思维链中间结果,而API仅输出最终文本。
- 数学不成立:仅靠少量API输出点无法复原复杂模型分布。
- 信息路径缺失:预训练需要数万亿token,RL需要探索奖励信号,o1之后完整logits不再公开,不存在明确的信息传递通道。
- 他还强调,DeepSeek已公开预训练、SFT和RL全管线细节,社区已部分复现其结果,质疑者宁愿相信猜测也不接受可验证的成果。
-
“蒸馏”定义的武器化
- antirez讨论的是经典白盒知识蒸馏(需完整logits),而反对者将“基于API输出进行指令微调”的黑盒训练混为一谈。
- Anthropic指控DeepSeek约15万次交互属于“异常规模”,但普通AI工具日均交互约16万次,SWE-bench一轮测试接近12万次,这些交互完全可来自正当评测。
- AI2研究员Nathan Lambert指出,“蒸馏”已被包装为恶意道德术语,创造出“蒸馏攻击”的说法,若按此逻辑,所有基于模型输出训练的模型都算“蒸馏”,这显然不合理。
-
中国AI的工程实力
- Linux Foundation AI&Data CTO Matt White与Nathan Lambert实地访问中国AI实验室后证实:团队普遍年轻精简(平均年龄约25岁),研究员专注于技术优化,开源是默认选项。
- DeepSeek因GRPO算法、Muon优化器、VERL框架等技术成果获得全球行业普遍尊重,这些技术已被广泛采纳。
- antirez本人曾为DeepSeek开发开源本地推理引擎DS4,实际接触后确认其具备真实的架构与工程积累。
值得关注
这场争论的核心已超出技术范畴,暴露了舆论场中的根深蒂固偏见——默认中国团队的AI进步来自非正当手段,而忽视其在算力受限条件下实现的架构创新、算法突破与开源贡献。
