AI自主优化LLM训练:卡帕西项目48小时提升11%效率,马斯克称奇点降临

Andrej Karpathy开源的autosearch项目让AI代理在48小时内自主完成了276次实验,成功找到29个有效改进点,将模型训练时间缩短约11%。这些改进涉及注意力机制、正则化及优化器参数等细节,部分为人类研究员此前忽略。马斯克对此评价称“奇点降临”,认为这标志着AI正从辅助工具转变为具备自主研究能力的智能体。

事件概述

3月8日,Andrej Karpathy发布了名为autosearch的开源项目,旨在探索AI自主优化大语言模型(LLM)训练的能力。该项目基于其之前的nanochat项目简化而来,仅需单张显卡和630行代码即可运行。核心逻辑是让AI Agent自动修改训练代码、执行实验并评估结果,形成“思考-编码-实验-反馈”的闭环。

核心进展与数据

在Karpathy未进行人工干预的情况下,autosearch在两天内取得了显著成果:

  • 实验规模:AI自主运行了276次完整实验,尝试了约700次代码修改。
  • 优化成果:筛选出29个有效的改进点,这些改进叠加后使达到相同训练损失水平所需的时间从2.02小时缩短至1.8小时,整体训练效能提升约11%
  • 对比基准:实验初期进行了83次测试,找到15个改进点;后续深度实验(depth=12)效果更为集中和显著。

技术细节与发现

AI自主发现的优化策略主要集中在以下方面,这些细节往往被人类手动调优所忽略:

  1. 注意力机制:为无参数的QKnorm添加缩放乘数,使模型注意力更集中;调整带状注意力的保守设置。
  2. 嵌入层优化:为Value Embeddings添加正则化。
  3. 优化器调整:优化AdamW的beta参数及权重衰减调度。
  4. 初始化策略:优化网络初始化方法。

Karpathy验证了这些改进不仅可叠加,还能直接迁移至更大的模型(depth=24)上。

行业影响与展望

  • 马斯克评价:针对这一进展,Elon Musk评论道“我们身处奇点”,暗示AI自主迭代能力已触及关键转折点。
  • 未来趋势:Karpathy计划启动第二轮实验,并探索多Agent协作与并行工作模式。他预测,未来所有LLM前沿实验室都将采用AI自动调参,AI代理将从辅助工具演变为真正的自主研究者,能够自动研究任何可快速测量的指标。
  • 里程碑意义:这是Karpathy首次见证AI代理端到端完成神经网络训练的迭代优化全流程,证明了在某些细分领域,AI的表现已开始超越顶级人类研究员的注意力范围。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。