Snap 利用 NVIDIA cuDF 加速 Spark，A/B 测试效率提升 4 倍且成本降低 76%

2026/03/17 21:00阅读量 16

Snap 在 Google Cloud 上采用 NVIDIA cuDF 加速 Apache Spark 应用，成功将 A/B 测试的数据处理速度提升 4 倍，同时实现每日成本节省 76%。该技术使 Snap 能够在无需修改代码的情况下，将现有 Spark 工作负载迁移至 NVIDIA L4 GPU 集群，显著降低了扩展实验所需的硬件资源规模。这一架构优化不仅支撑了每月数千次实验和超 10 PB 数据的快速处理，还为未来扩展至更多生产工作负载奠定了基础。

事件概述

Snap（Snapchat 母公司）为应对社交应用功能快速迭代的需求，在 Google Cloud 平台上引入 NVIDIA 开源加速库（NVIDIA cuDF），以优化其大规模 A/B 测试流程。该方案旨在解决传统 CPU 架构下数据处理瓶颈，支持对超过 9.4 亿月活跃用户进行更高效的实验验证。

核心性能与成本数据

处理速度：通过 NVIDIA cuDF 加速 Apache Spark，在相同机器数量下，数据运行时间缩短至原来的 1/4（提升 4 倍）。
成本节约：基于 2026 年 1 月 1 日至 2 月 28 日的内部数据，相比纯 CPU 工作流，使用 NVIDIA GPU 的每日成本降低 76%。
资源优化：实际部署仅需 2,100 个并发运行的 GPU（基于 NVIDIA L4 显卡），远低于最初预估的 5,500 个 GPU 需求（数据截至 3 月 13 日）。
业务规模：Snap 每月运行数千次实验，每天需在 3 小时内处理超过 10 PB 的数据，涉及近 6,000 个指标分析。

技术实施细节

架构组合：结合 NVIDIA CUDA-X 库与 Google Kubernetes Engine (GKE) 基础设施管理，构建全栈可扩展数据处理平台。
零代码迁移：cuDF 允许开发者直接在 NVIDIA GPU 上运行现有的 Apache Spark 应用，无需修改代码即可轻松部署。
自动化优化：利用 cuDF 微服务套件自动完成 Spark 工作负载的资格认证、测试、配置及 GPU 加速优化。
硬件环境：基于 Google Cloud G2 虚拟机，搭载 NVIDIA L4 GPU 进行工作负载迁移。

关键结论与展望

Snap 工程团队表示，从 CPU 转向 GPU 架构使得实验能力能够高效扩展至更多功能、指标和用户群体。目前，Snap 已迁移其最大的两个数据管道，并计划将 Spark 加速器推广至更广泛的生产工作负载中，以进一步挖掘加速计算的价值。

阅读原文详情

事件概述

核心性能与成本数据

技术实施细节

关键结论与展望

准备好启动您的定制项目了吗？