NVIDIA Blackwell 在首个智能体 AI 基础设施基准测试中领先

2026/06/13 05:00阅读量 12

Artificial Analysis 发布业界首个智能体 AI 基准测试 AgentPerf,首轮结果显示 NVIDIA GB300 NVL72 在每兆瓦运行智能体数量上达到 H200 的 20 倍。该基准模拟真实编码智能体工作流,评估系统并发处理能力,为基础设施选型提供参考。

事件概述

行业分析机构 Artificial Analysis 推出了首个针对智能体 AI(Agentic AI)的基础设施基准测试 AgentPerf。首轮结果中,NVIDIA Blackwell Ultra NVL72 平台在测试的智能体工作负载上表现领先,每兆瓦功率可运行 20 倍于 NVIDIA Hopper 的智能体数量。

核心信息

  • 智能体 AI 与对话 AI 的本质差异:单次对话完成类似于短跑——一次 LLM 调用、一次响应;而智能体更像接力赛——将目标拆解为多个步骤,通过多次 LLM 调用和工具调用(如编译代码、数据库搜索、网页浏览)来收集上下文、观察、推理并行动。这种链式调用和不断增长的上下文对加速计算系统提出了完全不同的压力。
  • AgentPerf 测试结果:首轮使用 DeepSeek V4 Pro(大型 MoE 模型)进行测试。在每智能体 20 和 60 tokens/s 两个服务等级目标下,NVIDIA GB300 NVL72 支持的并发智能体数量(按每兆瓦计)均显著高于 HGX H200 系统,最高达到 20 倍优势。
  • 性能优势来源:全栈协同设计。GB300 NVL72 将 72 块 GPU 连接为单机架系统,使 MoE 模型能够高效分布式执行;CUDA 内核通过重叠通信与计算来吸收协调开销;NVIDIA TensorRT LLM 优化了并发会话的输入输出分离处理。
  • 基准测试方法论:AgentPerf 基于真实编码智能体轨迹构建——智能体接收任务、读写文件、编写编辑代码、执行命令并迭代结果,涵盖 12 种以上编程语言。测试模拟了工具调用的 CPU 处理延迟,但仅反映加速计算性能差异。结果直接转化为每加速器、每兆瓦可运行的并发智能体任务数。

值得关注

领先的推理服务商如 Baseten、DeepInfra 和 Together AI 已在 NVIDIA Blackwell 上为 DeepSeek V4 Pro 等前沿模型提供智能体工作负载服务。例如 Together AI 为 AI 编程平台 Cursor 提供实时推理,DeepInfra 为汽车经销商 AI 平台 Pam.ai 运行智能体。NVIDIA 表示,随着 Vera Rubin 架构全面投产和开源推理软件的持续优化,智能体 AI 的性能与效率还将进一步提升。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。