Snap 利用 NVIDIA cuDF 加速 Spark,A/B 测试效率提升 4 倍且成本降低 76%
Snap 在 Google Cloud 上采用 NVIDIA cuDF 加速 Apache Spark 应用,成功将 A/B 测试的数据处理速度提升 4 倍,同时实现每日成本节省 76%。该技术使 Snap 能够在无需修改代码的情况下,将现有 Spark 工作负载迁移至 NVIDIA L4 GPU 集群,显著降低了扩展实验所需的硬件资源规模。这一架构优化不仅支撑了每月数千次实验和超 10 PB 数据的快速处理,还为未来扩展至更多生产工作负载奠定了基础。
事件概述
Snap(Snapchat 母公司)为应对社交应用功能快速迭代的需求,在 Google Cloud 平台上引入 NVIDIA 开源加速库(NVIDIA cuDF),以优化其大规模 A/B 测试流程。该方案旨在解决传统 CPU 架构下数据处理瓶颈,支持对超过 9.4 亿月活跃用户进行更高效的实验验证。
核心性能与成本数据
- 处理速度:通过 NVIDIA cuDF 加速 Apache Spark,在相同机器数量下,数据运行时间缩短至原来的 1/4(提升 4 倍)。
- 成本节约:基于 2026 年 1 月 1 日至 2 月 28 日的内部数据,相比纯 CPU 工作流,使用 NVIDIA GPU 的每日成本降低 76%。
- 资源优化:实际部署仅需 2,100 个并发运行的 GPU(基于 NVIDIA L4 显卡),远低于最初预估的 5,500 个 GPU 需求(数据截至 3 月 13 日)。
- 业务规模:Snap 每月运行数千次实验,每天需在 3 小时内处理超过 10 PB 的数据,涉及近 6,000 个指标分析。
技术实施细节
- 架构组合:结合 NVIDIA CUDA-X 库与 Google Kubernetes Engine (GKE) 基础设施管理,构建全栈可扩展数据处理平台。
- 零代码迁移:cuDF 允许开发者直接在 NVIDIA GPU 上运行现有的 Apache Spark 应用,无需修改代码即可轻松部署。
- 自动化优化:利用 cuDF 微服务套件自动完成 Spark 工作负载的资格认证、测试、配置及 GPU 加速优化。
- 硬件环境:基于 Google Cloud G2 虚拟机,搭载 NVIDIA L4 GPU 进行工作负载迁移。
关键结论与展望
Snap 工程团队表示,从 CPU 转向 GPU 架构使得实验能力能够高效扩展至更多功能、指标和用户群体。目前,Snap 已迁移其最大的两个数据管道,并计划将 Spark 加速器推广至更广泛的生产工作负载中,以进一步挖掘加速计算的价值。
