卡帕西开源自进化科研框架：5分钟一轮实验，48小时获9.5k星标

2026/03/09 15:46阅读量 46

Andrej Karpathy 开源了名为 autoresearch 的 AI 自进化训练框架，仅需 630 行代码即可在单 GPU 上运行。该框架通过固定 5 分钟训练周期和 val_bpb 评估指标，实现 AI 自主修改代码、验证效果并迭代优化。发布不到两天即获超 9.5k 星标，未来计划模拟分布式博士社群以突破传统线性科研模式。

事件概述

Andrej Karpathy 开源了一个名为 autoresearch 的 AI 科研循环系统，旨在让智能体完全自主地进行科学研究。该项目代码精简（仅 630 行），可在单个 GPU 上运行，每 5 分钟完成一轮“修改 - 训练 - 评估 - 决策”的闭环实验。发布后迅速引发关注，48 小时内 GitHub 星标数突破 9.5k。

核心机制与架构

autoresearch 基于 nanochat 模型训练核心，确立了两大铁律以确保实验的可比性与自动化效率：

时间固定：每次实验的纯训练时间严格限制为 5 分钟，消除时长差异对结果的干扰。
指标单一：仅使用 val_bpb（验证集 bits per byte）作为评估标准，数值越低代表模型效果越好，且该指标与模型大小无关。

项目由三个核心文件组成：

prepare.py：定义固定常量（如模型维度、数据下载、分词器），全程无需改动。
train.py：AI 唯一可编辑的文件，包含 GPT 架构、优化器及训练逻辑。AI 在此调整层数、批次大小、学习率等参数。
program.md：人类编写的指令文件，设定研究方向、规则及参考依据，AI 启动前读取此文件生成实验策略。

工作流程

指令读取：AI 解析 program.md 中的基线指令。
代码修改：AI 针对性地修改 train.py（通常每次仅调整 1-2 处参数）。
自动训练：启动训练程序，严格执行 5 分钟时限。
评估决策：根据 val_bpb 评分判断结果：
- 若分数降低（效果提升），保留修改并作为下一轮基础；
- 若分数升高（效果下降或无效），丢弃改动，回退至上一最佳版本。
持续迭代：立即启动下一轮实验，每小时可完成约 10 组实验。

实测数据显示，在一次近 250 轮的自主探索中，AI 成功筛选并保留了 29 次有效优化，其余无效尝试也提供了避坑经验。

未来愿景：模拟博士社群

Karpathy 提出将 autoresearch 从单一 Agent 扩展为大规模分布式协作网络，类比 1999 年 SETI@home 项目的去中心化计算模式：

打破线性束缚：摒弃传统 Git 依赖单一 master 分支的强制合并逻辑，允许无数研究分支异步并行发展。
群体智慧：让成千上万个智能体在不同分支中自由探索，通过 GitHub Discussion 或 PR 沉淀独立的研究成果，而非强行收敛至唯一标准答案。
协作转型：推动科研模式从传统的“写软件”逻辑转向更灵活的“攒经验”逻辑，适应 AI 高频产出的特性。

阅读原文详情

事件概述

核心机制与架构

工作流程

未来愿景：模拟博士社群

准备好启动您的定制项目了吗？