AI自主优化LLM训练：卡帕西项目48小时提升11%效率，马斯克称奇点降临

2026/03/12 17:55阅读量 26

Andrej Karpathy开源的autosearch项目让AI代理在48小时内自主完成了276次实验，成功找到29个有效改进点，将模型训练时间缩短约11%。这些改进涉及注意力机制、正则化及优化器参数等细节，部分为人类研究员此前忽略。马斯克对此评价称“奇点降临”，认为这标志着AI正从辅助工具转变为具备自主研究能力的智能体。

事件概述

3月8日，Andrej Karpathy发布了名为autosearch的开源项目，旨在探索AI自主优化大语言模型（LLM）训练的能力。该项目基于其之前的nanochat项目简化而来，仅需单张显卡和630行代码即可运行。核心逻辑是让AI Agent自动修改训练代码、执行实验并评估结果，形成“思考-编码-实验-反馈”的闭环。

核心进展与数据

在Karpathy未进行人工干预的情况下，autosearch在两天内取得了显著成果：

实验规模：AI自主运行了276次完整实验，尝试了约700次代码修改。
优化成果：筛选出29个有效的改进点，这些改进叠加后使达到相同训练损失水平所需的时间从2.02小时缩短至1.8小时，整体训练效能提升约11%。
对比基准：实验初期进行了83次测试，找到15个改进点；后续深度实验（depth=12）效果更为集中和显著。

技术细节与发现

AI自主发现的优化策略主要集中在以下方面，这些细节往往被人类手动调优所忽略：

注意力机制：为无参数的QKnorm添加缩放乘数，使模型注意力更集中；调整带状注意力的保守设置。
嵌入层优化：为Value Embeddings添加正则化。
优化器调整：优化AdamW的beta参数及权重衰减调度。
初始化策略：优化网络初始化方法。

Karpathy验证了这些改进不仅可叠加，还能直接迁移至更大的模型（depth=24）上。

行业影响与展望

马斯克评价：针对这一进展，Elon Musk评论道“我们身处奇点”，暗示AI自主迭代能力已触及关键转折点。
未来趋势：Karpathy计划启动第二轮实验，并探索多Agent协作与并行工作模式。他预测，未来所有LLM前沿实验室都将采用AI自动调参，AI代理将从辅助工具演变为真正的自主研究者，能够自动研究任何可快速测量的指标。
里程碑意义：这是Karpathy首次见证AI代理端到端完成神经网络训练的迭代优化全流程，证明了在某些细分领域，AI的表现已开始超越顶级人类研究员的注意力范围。

阅读原文详情

事件概述

核心进展与数据

技术细节与发现

行业影响与展望

准备好启动您的定制项目了吗？