为什么新AI模型刚一推出,就失去了优势?
当前人工智能领域的技术迭代周期已缩短至周级别,中美企业间的竞争引发关于“蒸馏”技术的激烈争议。通过向顶尖模型输入大量提示词提取逻辑并训练低成本复刻版,竞争对手能迅速缩小与闭源模型的差距。尽管美国公司指控此举存在窃取行为,但专家预测市场将分化为廉价本地模型与高端前沿系统并存的格局。
在当今的人工智能竞赛中,技术的迭代周期早已不再以年或月计算,而是以周为单位。 今年2月初,Anthropic发布了Opus 4.6,这是该公司的一个重要高光时刻——这款模型在多个领域都展现了顶尖水平。然而仅过了一周,来自中国的竞争对手Z.ai便推出了对标Opus的模型GLM-5。并且,目前没有任何证据表明GLM-5以任何方式复制或借鉴了Opus。社交媒体上许多人将其称为“平替版Opus”。 不过,Z.ai的优势也没有维持太久。就在Anthropic被GLM-5迎头赶上后不久,GLM-5又被迅速下载、压缩,并进一步开发出一个可本地离线运行的版本。 外界对于AI公司如何追赶甚至超越竞争对手,尤其是一些中国企业如何在几天或几周内发布与美国顶尖模型媲美的产品,一直存在诸多争议。谷歌长期以来都在警告“蒸馏”(distillation)技术可能带来的风险。 在“蒸馏”过程中,企业通过向模型输入大量提示词,生成海量回复数据集,从中提取内部推理模式与逻辑,再用这些数据训练成本更低的复刻模型。据称,有机构曾向谷歌的Gemini模型发送超过10万次提示,试图破解其强大能力背后的原理。麻省理工学院专注于人工智能政策研究的博士生Shayne Longpre表示:“我确实觉得技术壁垒正在消失。” 这种变化不只体现在发布速度上,也体现在技术进步的本质层面。Longpre指出,最顶尖的闭源模型与开放权重模型之间的前沿差距正在急剧缩小。他援引非营利研究机构Epoch AI追踪模型发展的一项研究解释道:“目前这一差距大约只有三到六个月。” 差距不断缩小的原因在于,如今大部分进展都是在模型发布之后实现的。Longpre解释道,各家公司会“对这些系统进行不同的强化学习或微调,或是提升它们的测试时推理能力,或是支持更长的上下文窗口”——所有这些都让适配周期大大缩短,“而不必从头开始预训练一个全新模型”。 这些迭代式改进会不断放大速度优势。“他们每隔一两周就推出各种变体版本,”他说,“就像给普通软件打补丁一样。” 但作为诸多前沿技术的开拓者,美国人工智能公司对这类做法的批评声音越来越大。OpenAI在致美国国会议员的一份备忘录中指控,DeepSeek通过蒸馏美国模型的输出来训练具有竞争力的系统。 即便在严格意义上不存在“窃取”行为,开放权重生态也在以前所未有的速度模仿前沿模型中的有效创新。 阿姆斯特丹自由大学研究基础模型竞争问题的法学副教授Thibault Schrepel认为,问题部分出在模型许可证对“开源”的定义上。“我们经常听到某个系统是或不是开源的,”他说,“但我认为这种二元判断非常局限。” Schrepel补充说,仔细查看这些许可证的实际条款非常重要。“如果你认真研究所有模型的许可证,就会发现它们实际上对所谓‘开源’模型的使用方式施加了大量限制。”例如,Meta的Llama 3许可证就对超大型服务设置了触发条款限制,而小型服务则不受影响。“如果将其部署给超过7亿用户,就必须申请许可。”Schrepel说。这种双层体系会形成灰色地带,滋生可疑行为。 麻省理工学院的Longpre表示,作为应对,市场很可能会走向分化。一边是廉价的、性能不断提升的、可本地部署的模型,可以用于处理日常任务;另一边是用于高难度、高风险工作的高端前沿系统。“我认为基础水平正在整体提升,”他补充道,并预测“会出现更多价格亲民、可本地部署、体积也越来越小的通用模型”。但他也相信,在关键且专业性强的工作中,用户仍会“倾向于使用OpenAI、谷歌和Anthropic的模型”。 Longpre还表示,要完全阻止模型蒸馏几乎是不可能的。他分析,每当有新模型发布,竞争对手必然会尝试提取并复制其最优秀的特性。“归根结底,我认为这是一个无法避免的问题。”
