1930年知识的大模型被微调成软件工程师，仅250样本修bug

2026/05/03 17:42阅读量 2

研究人员对只有1930年知识的大模型talkie-1930-13b进行微调，仅用250个训练样本就使其解决了xarray库的一个真实补丁问题。在SWE-bench-Verified上达到4.5% pass@1，仅比互联网预训练模型低1个百分点。项目已开源，引发对预训练数据量与智能关系的讨论。

事件概述

由AI研究员Nick Levine、多伦多大学副教授David Duvenaud和GPT系列之父Alec Radford等打造的 vintage 大模型 talkie-1930-13b（仅包含1930年以前知识，训练数据截止于1931年1月1日）被微调成为软件工程师。团队仅用250个训练样本，就在SWE-bench真实软件工程任务中解决了xarray库的一个补丁问题。

核心信息

微调过程：经过仅250个样本的训练，模型成功为xarray库提交了一个小补丁。整个过程耗时49轮对话，模型在多次试错和自我修正后最终在第44轮成功应用补丁。
Benchmark表现：当训练数据扩展到约75K条轨迹（10亿token）时，模型在SWE-bench-Verified上达到4.5%的pass@1。相比之下，使用相同微调配方的互联网预训练模型（talkie-web）得分为5.5%，仅高出1个百分点。
开源与复现：项目已在GitHub开源（https://github.com/RicardoDominguez/talkie-coder），团队鼓励有更多算力的研究者继续对比两类模型的scaling曲线。

值得关注

一个仅拥有1930年知识的模型，在微调后竟能理解现代编程任务，表明智能的瓶颈可能不在于预训练数据的规模，而在于正确的后训练方法。
模型在解题过程中展现出试错、反思和自我修正的推理能力，与现代大型语言模型如出一辙。
团队还进行了对照实验：相同微调配方下，使用互联网数据预训练的模型仅比1930模型高1%，引发对“智能本质”的重新思考。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？