Snap 利用 NVIDIA cuDF 加速 Spark,A/B 测试效率提升 4 倍且成本降低 76%

Snap 在 Google Cloud 上采用 NVIDIA cuDF 加速 Apache Spark 应用,成功将 A/B 测试的数据处理速度提升 4 倍,同时实现每日成本节省 76%。该技术使 Snap 能够在无需修改代码的情况下,将现有 Spark 工作负载迁移至 NVIDIA L4 GPU 集群,显著降低了扩展实验所需的硬件资源规模。这一架构优化不仅支撑了每月数千次实验和超 10 PB 数据的快速处理,还为未来扩展至更多生产工作负载奠定了基础。

事件概述

Snap(Snapchat 母公司)为应对社交应用功能快速迭代的需求,在 Google Cloud 平台上引入 NVIDIA 开源加速库(NVIDIA cuDF),以优化其大规模 A/B 测试流程。该方案旨在解决传统 CPU 架构下数据处理瓶颈,支持对超过 9.4 亿月活跃用户进行更高效的实验验证。

核心性能与成本数据

  • 处理速度:通过 NVIDIA cuDF 加速 Apache Spark,在相同机器数量下,数据运行时间缩短至原来的 1/4(提升 4 倍)。
  • 成本节约:基于 2026 年 1 月 1 日至 2 月 28 日的内部数据,相比纯 CPU 工作流,使用 NVIDIA GPU 的每日成本降低 76%。
  • 资源优化:实际部署仅需 2,100 个并发运行的 GPU(基于 NVIDIA L4 显卡),远低于最初预估的 5,500 个 GPU 需求(数据截至 3 月 13 日)。
  • 业务规模:Snap 每月运行数千次实验,每天需在 3 小时内处理超过 10 PB 的数据,涉及近 6,000 个指标分析。

技术实施细节

  • 架构组合:结合 NVIDIA CUDA-X 库与 Google Kubernetes Engine (GKE) 基础设施管理,构建全栈可扩展数据处理平台。
  • 零代码迁移:cuDF 允许开发者直接在 NVIDIA GPU 上运行现有的 Apache Spark 应用,无需修改代码即可轻松部署。
  • 自动化优化:利用 cuDF 微服务套件自动完成 Spark 工作负载的资格认证、测试、配置及 GPU 加速优化。
  • 硬件环境:基于 Google Cloud G2 虚拟机,搭载 NVIDIA L4 GPU 进行工作负载迁移。

关键结论与展望

Snap 工程团队表示,从 CPU 转向 GPU 架构使得实验能力能够高效扩展至更多功能、指标和用户群体。目前,Snap 已迁移其最大的两个数据管道,并计划将 Spark 加速器推广至更广泛的生产工作负载中,以进一步挖掘加速计算的价值。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。