英伟达23人团队打造AI智能体:7天自主进化代码,性能超越人类专家10%
英伟达组建23人顶级团队发布研究论文《AVO》,利用自主进化搜索智能体在7天内完成了GPU内核优化,其生成的代码在Blackwell B200显卡上比cuDNN快3.5%,比FlashAttention-4快10.5%。该成果标志着AI从单纯的内容生成转向具备反思与规划能力的自主优化,实现了微架构级别的深度代码进化。这一突破证明了AI可自动化复杂的专业优化任务,有望大幅降低大模型训练门槛并解放顶尖工程师的重复性工作。
事件概述
学术预印本平台arXiv发布了一项突破性研究,题为《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》(AVO:用于自主进化搜索的智能体变异算子)。该研究由英伟达(NVIDIA)一支涵盖AI编译器、高性能计算及系统工程的23人顶级团队完成。核心成果在于,AI智能体在无需人类专家手动干预的情况下,仅用7天时间便完成了通常需要数月甚至数年的GPU内核优化工作。
核心机制:从“辅助工具”到“自主进化者”
传统优化依赖人工调整或基于固定流程的AI辅助,存在效率低、依赖个人经验等局限。AVO彻底颠覆了这一范式:
- 全权代理:不再将AI视为简单的代码生成器,而是赋予其完整的自主权,使其扮演“程序员+架构师+测试员”的角色。
- 闭环进化:智能体能够查阅历史进化家谱、调用领域知识库(如GPU硬件架构)、分析执行反馈,并自主完成提出修改、修复错误、批判方案及验证结果的全过程。
- 数据驱动:通过实际运行代码并测量性能数据来驱动进化,而非依赖随机猜测或预设规则。
实战成绩:击败行业标杆
研究团队选择大语言模型核心的注意力机制(Attention)计算内核作为测试对象,在英伟达最新的Blackwell (B200) GPU上进行测试,取得了以下关键突破:
- 超越闭源库 cuDNN:AVO生成的多头注意力(MHA)计算内核性能超越了英伟达自家工程师多年打磨的cuDNN库,提升幅度达3.5%。
- 超越学术界前沿 FlashAttention-4:相比当前最先进的FlashAttention-4算法,AVO优化的代码速度提升了10.5%。
- 极强的迁移能力:在MHA上进化7天的成果,仅需30分钟即可迁移至分组查询注意力(GQA),带来7%-9%的性能提升,证明其掌握了通用的优化策略而非死记硬背。
- 微架构级优化:优化深入到了GPU寄存器分配、warp调度及流水线时序等底层微架构层面,显示AI已具备理解硬件底层行为的能力。
行业影响与未来展望
- 加速大模型训练:若注意力机制计算加速10%,将直接带动整个大模型训练速度的提升。
- 降低硬件门槛:同样的硬件可支撑更大规模的模型,或使同等模型能在更廉价的硬件上运行。
- 研发范式变革:证明了AI不仅能自动化任务,更能自动化“优化本身”。未来在芯片设计、编译器优化等领域,自主进化的AI智能体可能成为人类最得力的“共研者”,探索人类思维难以触及的微观组合空间。
