英伟达23人团队打造AI智能体:7天自主进化代码,性能超越人类专家10%

英伟达组建23人顶级团队发布研究论文《AVO》,利用自主进化搜索智能体在7天内完成了GPU内核优化,其生成的代码在Blackwell B200显卡上比cuDNN快3.5%,比FlashAttention-4快10.5%。该成果标志着AI从单纯的内容生成转向具备反思与规划能力的自主优化,实现了微架构级别的深度代码进化。这一突破证明了AI可自动化复杂的专业优化任务,有望大幅降低大模型训练门槛并解放顶尖工程师的重复性工作。

事件概述

学术预印本平台arXiv发布了一项突破性研究,题为《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》(AVO:用于自主进化搜索的智能体变异算子)。该研究由英伟达(NVIDIA)一支涵盖AI编译器、高性能计算及系统工程的23人顶级团队完成。核心成果在于,AI智能体在无需人类专家手动干预的情况下,仅用7天时间便完成了通常需要数月甚至数年的GPU内核优化工作。

核心机制:从“辅助工具”到“自主进化者”

传统优化依赖人工调整或基于固定流程的AI辅助,存在效率低、依赖个人经验等局限。AVO彻底颠覆了这一范式:

  • 全权代理:不再将AI视为简单的代码生成器,而是赋予其完整的自主权,使其扮演“程序员+架构师+测试员”的角色。
  • 闭环进化:智能体能够查阅历史进化家谱、调用领域知识库(如GPU硬件架构)、分析执行反馈,并自主完成提出修改、修复错误、批判方案及验证结果的全过程。
  • 数据驱动:通过实际运行代码并测量性能数据来驱动进化,而非依赖随机猜测或预设规则。

实战成绩:击败行业标杆

研究团队选择大语言模型核心的注意力机制(Attention)计算内核作为测试对象,在英伟达最新的Blackwell (B200) GPU上进行测试,取得了以下关键突破:

  1. 超越闭源库 cuDNN:AVO生成的多头注意力(MHA)计算内核性能超越了英伟达自家工程师多年打磨的cuDNN库,提升幅度达3.5%。
  2. 超越学术界前沿 FlashAttention-4:相比当前最先进的FlashAttention-4算法,AVO优化的代码速度提升了10.5%。
  3. 极强的迁移能力:在MHA上进化7天的成果,仅需30分钟即可迁移至分组查询注意力(GQA),带来7%-9%的性能提升,证明其掌握了通用的优化策略而非死记硬背。
  4. 微架构级优化:优化深入到了GPU寄存器分配、warp调度及流水线时序等底层微架构层面,显示AI已具备理解硬件底层行为的能力。

行业影响与未来展望

  • 加速大模型训练:若注意力机制计算加速10%,将直接带动整个大模型训练速度的提升。
  • 降低硬件门槛:同样的硬件可支撑更大规模的模型,或使同等模型能在更廉价的硬件上运行。
  • 研发范式变革:证明了AI不仅能自动化任务,更能自动化“优化本身”。未来在芯片设计、编译器优化等领域,自主进化的AI智能体可能成为人类最得力的“共研者”,探索人类思维难以触及的微观组合空间。

论文地址https://arxiv.org/pdf/2603.24517v1

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。