英伟达23人团队打造AI智能体：7天自主进化代码，性能超越人类专家10%

2026/03/26 17:41阅读量 65

英伟达组建23人顶级团队发布研究论文《AVO》，利用自主进化搜索智能体在7天内完成了GPU内核优化，其生成的代码在Blackwell B200显卡上比cuDNN快3.5%，比FlashAttention-4快10.5%。该成果标志着AI从单纯的内容生成转向具备反思与规划能力的自主优化，实现了微架构级别的深度代码进化。这一突破证明了AI可自动化复杂的专业优化任务，有望大幅降低大模型训练门槛并解放顶尖工程师的重复性工作。

事件概述

学术预印本平台arXiv发布了一项突破性研究，题为《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》（AVO：用于自主进化搜索的智能体变异算子）。该研究由英伟达（NVIDIA）一支涵盖AI编译器、高性能计算及系统工程的23人顶级团队完成。核心成果在于，AI智能体在无需人类专家手动干预的情况下，仅用7天时间便完成了通常需要数月甚至数年的GPU内核优化工作。

核心机制：从“辅助工具”到“自主进化者”

传统优化依赖人工调整或基于固定流程的AI辅助，存在效率低、依赖个人经验等局限。AVO彻底颠覆了这一范式：

全权代理：不再将AI视为简单的代码生成器，而是赋予其完整的自主权，使其扮演“程序员+架构师+测试员”的角色。
闭环进化：智能体能够查阅历史进化家谱、调用领域知识库（如GPU硬件架构）、分析执行反馈，并自主完成提出修改、修复错误、批判方案及验证结果的全过程。
数据驱动：通过实际运行代码并测量性能数据来驱动进化，而非依赖随机猜测或预设规则。

实战成绩：击败行业标杆

研究团队选择大语言模型核心的注意力机制（Attention）计算内核作为测试对象，在英伟达最新的Blackwell (B200) GPU上进行测试，取得了以下关键突破：

超越闭源库 cuDNN：AVO生成的多头注意力（MHA）计算内核性能超越了英伟达自家工程师多年打磨的cuDNN库，提升幅度达3.5%。
超越学术界前沿 FlashAttention-4：相比当前最先进的FlashAttention-4算法，AVO优化的代码速度提升了10.5%。
极强的迁移能力：在MHA上进化7天的成果，仅需30分钟即可迁移至分组查询注意力（GQA），带来7%-9%的性能提升，证明其掌握了通用的优化策略而非死记硬背。
微架构级优化：优化深入到了GPU寄存器分配、warp调度及流水线时序等底层微架构层面，显示AI已具备理解硬件底层行为的能力。

行业影响与未来展望

加速大模型训练：若注意力机制计算加速10%，将直接带动整个大模型训练速度的提升。
降低硬件门槛：同样的硬件可支撑更大规模的模型，或使同等模型能在更廉价的硬件上运行。
研发范式变革：证明了AI不仅能自动化任务，更能自动化“优化本身”。未来在芯片设计、编译器优化等领域，自主进化的AI智能体可能成为人类最得力的“共研者”，探索人类思维难以触及的微观组合空间。

论文地址：https://arxiv.org/pdf/2603.24517v1

阅读原文详情

事件概述

核心机制：从“辅助工具”到“自主进化者”

实战成绩：击败行业标杆

行业影响与未来展望

准备好启动您的定制项目了吗？