卡帕西开源自进化科研框架:5分钟一轮实验,48小时获9.5k星标

Andrej Karpathy 开源了名为 autoresearch 的 AI 自进化训练框架,仅需 630 行代码即可在单 GPU 上运行。该框架通过固定 5 分钟训练周期和 val_bpb 评估指标,实现 AI 自主修改代码、验证效果并迭代优化。发布不到两天即获超 9.5k 星标,未来计划模拟分布式博士社群以突破传统线性科研模式。

事件概述

Andrej Karpathy 开源了一个名为 autoresearch 的 AI 科研循环系统,旨在让智能体完全自主地进行科学研究。该项目代码精简(仅 630 行),可在单个 GPU 上运行,每 5 分钟完成一轮“修改 - 训练 - 评估 - 决策”的闭环实验。发布后迅速引发关注,48 小时内 GitHub 星标数突破 9.5k。

核心机制与架构

autoresearch 基于 nanochat 模型训练核心,确立了两大铁律以确保实验的可比性与自动化效率:

  • 时间固定:每次实验的纯训练时间严格限制为 5 分钟,消除时长差异对结果的干扰。
  • 指标单一:仅使用 val_bpb(验证集 bits per byte)作为评估标准,数值越低代表模型效果越好,且该指标与模型大小无关。

项目由三个核心文件组成:

  1. prepare.py:定义固定常量(如模型维度、数据下载、分词器),全程无需改动。
  2. train.py:AI 唯一可编辑的文件,包含 GPT 架构、优化器及训练逻辑。AI 在此调整层数、批次大小、学习率等参数。
  3. program.md:人类编写的指令文件,设定研究方向、规则及参考依据,AI 启动前读取此文件生成实验策略。

工作流程

  1. 指令读取:AI 解析 program.md 中的基线指令。
  2. 代码修改:AI 针对性地修改 train.py(通常每次仅调整 1-2 处参数)。
  3. 自动训练:启动训练程序,严格执行 5 分钟时限。
  4. 评估决策:根据 val_bpb 评分判断结果:
    • 若分数降低(效果提升),保留修改并作为下一轮基础;
    • 若分数升高(效果下降或无效),丢弃改动,回退至上一最佳版本。
  5. 持续迭代:立即启动下一轮实验,每小时可完成约 10 组实验。

实测数据显示,在一次近 250 轮的自主探索中,AI 成功筛选并保留了 29 次有效优化,其余无效尝试也提供了避坑经验。

未来愿景:模拟博士社群

Karpathy 提出将 autoresearch 从单一 Agent 扩展为大规模分布式协作网络,类比 1999 年 SETI@home 项目的去中心化计算模式:

  • 打破线性束缚:摒弃传统 Git 依赖单一 master 分支的强制合并逻辑,允许无数研究分支异步并行发展。
  • 群体智慧:让成千上万个智能体在不同分支中自由探索,通过 GitHub Discussion 或 PR 沉淀独立的研究成果,而非强行收敛至唯一标准答案。
  • 协作转型:推动科研模式从传统的“写软件”逻辑转向更灵活的“攒经验”逻辑,适应 AI 高频产出的特性。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。