AI自主优化LLM训练:卡帕西项目48小时提升11%效率,马斯克称奇点降临
Andrej Karpathy开源的autosearch项目让AI代理在48小时内自主完成了276次实验,成功找到29个有效改进点,将模型训练时间缩短约11%。这些改进涉及注意力机制、正则化及优化器参数等细节,部分为人类研究员此前忽略。马斯克对此评价称“奇点降临”,认为这标志着AI正从辅助工具转变为具备自主研究能力的智能体。
事件概述
3月8日,Andrej Karpathy发布了名为autosearch的开源项目,旨在探索AI自主优化大语言模型(LLM)训练的能力。该项目基于其之前的nanochat项目简化而来,仅需单张显卡和630行代码即可运行。核心逻辑是让AI Agent自动修改训练代码、执行实验并评估结果,形成“思考-编码-实验-反馈”的闭环。
核心进展与数据
在Karpathy未进行人工干预的情况下,autosearch在两天内取得了显著成果:
- 实验规模:AI自主运行了276次完整实验,尝试了约700次代码修改。
- 优化成果:筛选出29个有效的改进点,这些改进叠加后使达到相同训练损失水平所需的时间从2.02小时缩短至1.8小时,整体训练效能提升约11%。
- 对比基准:实验初期进行了83次测试,找到15个改进点;后续深度实验(depth=12)效果更为集中和显著。
技术细节与发现
AI自主发现的优化策略主要集中在以下方面,这些细节往往被人类手动调优所忽略:
- 注意力机制:为无参数的QKnorm添加缩放乘数,使模型注意力更集中;调整带状注意力的保守设置。
- 嵌入层优化:为Value Embeddings添加正则化。
- 优化器调整:优化AdamW的beta参数及权重衰减调度。
- 初始化策略:优化网络初始化方法。
Karpathy验证了这些改进不仅可叠加,还能直接迁移至更大的模型(depth=24)上。
行业影响与展望
- 马斯克评价:针对这一进展,Elon Musk评论道“我们身处奇点”,暗示AI自主迭代能力已触及关键转折点。
- 未来趋势:Karpathy计划启动第二轮实验,并探索多Agent协作与并行工作模式。他预测,未来所有LLM前沿实验室都将采用AI自动调参,AI代理将从辅助工具演变为真正的自主研究者,能够自动研究任何可快速测量的指标。
- 里程碑意义:这是Karpathy首次见证AI代理端到端完成神经网络训练的迭代优化全流程,证明了在某些细分领域,AI的表现已开始超越顶级人类研究员的注意力范围。
