1930年知识的大模型被微调成软件工程师,仅250样本修bug
2026/05/03 17:42阅读量 2
研究人员对只有1930年知识的大模型talkie-1930-13b进行微调,仅用250个训练样本就使其解决了xarray库的一个真实补丁问题。在SWE-bench-Verified上达到4.5% pass@1,仅比互联网预训练模型低1个百分点。项目已开源,引发对预训练数据量与智能关系的讨论。
事件概述
由AI研究员Nick Levine、多伦多大学副教授David Duvenaud和GPT系列之父Alec Radford等打造的 vintage 大模型 talkie-1930-13b(仅包含1930年以前知识,训练数据截止于1931年1月1日)被微调成为软件工程师。团队仅用250个训练样本,就在SWE-bench真实软件工程任务中解决了xarray库的一个补丁问题。
核心信息
- 微调过程:经过仅250个样本的训练,模型成功为xarray库提交了一个小补丁。整个过程耗时49轮对话,模型在多次试错和自我修正后最终在第44轮成功应用补丁。
- Benchmark表现:当训练数据扩展到约75K条轨迹(10亿token)时,模型在SWE-bench-Verified上达到4.5%的pass@1。相比之下,使用相同微调配方的互联网预训练模型(talkie-web)得分为5.5%,仅高出1个百分点。
- 开源与复现:项目已在GitHub开源(https://github.com/RicardoDominguez/talkie-coder),团队鼓励有更多算力的研究者继续对比两类模型的scaling曲线。
值得关注
- 一个仅拥有1930年知识的模型,在微调后竟能理解现代编程任务,表明智能的瓶颈可能不在于预训练数据的规模,而在于正确的后训练方法。
- 模型在解题过程中展现出试错、反思和自我修正的推理能力,与现代大型语言模型如出一辙。
- 团队还进行了对照实验:相同微调配方下,使用互联网数据预训练的模型仅比1930模型高1%,引发对“智能本质”的重新思考。
