[解决方案] 在 Google Cloud 上使用 RDMA over Converged Ethernet 网络进行 AI

[解决方案] 在 Google Cloud 上使用 RDMA over Converged Ethernet 网络进行 AI   # 产品功能分析 ## 新功能/新产品概述 Google Cloud 引入 **RDMA over Converged Ethernet v2 (RoCE v2)** 协议，针对 AI、机器学习和科学计算工作负载提供高性能网络支持。该功能的核心在于实现直接内存访问，绕过操作系统和 CPU 处理，旨在加速数据传输并优化资源利用。背景是传统工作负载依赖标准网络流程，而 AI 工作负载需处理大规模数据集，需求高带宽、低延迟和无损通信。目标用户群包括使用加速器如 **TPU** 和 **GPU** 的开发者，市场定位聚焦于云计算环境中提升训练和推理效率，尤其适用于 A3 Ultra 和 A4 机型部署。 ## 关键客户价值 - **降低延迟和提升带宽**：RoCE v2 提供无损通信，通过 **Priority-based Flow Control (PFC)** 和 **Explicit Congestion Notification (ECN)** 管理拥塞，实现节点间 GPU 到 GPU 流量从 _1.6 Tbps_ 到 _3.2 Tbps_ 的提升，这显著加快 AI 任务执行，与传统网络相比减少了 CPU 瓶颈带来的延时。 - **优化资源利用和可扩展性**：支持大规模集群部署和突发流量场景，相比传统 IaaS 架构，该功能减少了网络故障恢复时间，提升了整体应用速度，但在大规模组网时可能增加管理复杂度。 - **业务场景差异化**：在 AI 推理和训练中，RoCE v2 使高性能连接成为关键优势，例如在科学计算中实现更快的数据交换，相比竞品如 AWS 或 Azure 的类似功能，其专用 VPC 网络设计更优化了硬件整合。 ## 关键技术洞察 - **RDMA 工作原理**：**Remote Direct Memory Access (RDMA)** 允许设备直接访问远程内存，绕过内核和 CPU，具体通过 RoCE v2 在以太网上传输数据，使用 **UDP 端口 4791** 实现高效通信。这技术创新点在于减少 OS 处理开销，提升数据传输速度，对性能的影响包括降低延迟和提高带宽利用率。 - **与硬件整合**：RoCE v2 与 **NVLink** 结合，支持节点内 GPU 直接通信和节点间高速连接，采用优化轨道设计（rail-designed network），这增强了可用性和安全性，但可能面临网络配置复杂性的挑战。 - **创新点影响**：该协议扩展了 Google Cloud 的原有 **GPUDirect-TCPX** 和 **GPUDirect-TCPXO** 能力，支持更大规模部署，提升了 AI 工作负载的吞吐量和可靠性；然而，在高拥塞场景下，虽然 PFC 和 ECN 提供无损保障，但实际实现需依赖正确网络配置以避免潜在兼容性问题。 ## 其他信息 - **实施步骤**：用户可通过创建容量预留、选择部署策略（如指定区域和网络配置文件）并执行部署来启用 RoCE v2，支持相关文档如 [Hypercompute Cluster 指南](https://cloud.google.com/ai-hypercomputer/docs/create/create-overview)。 - **涉及产品**：包括 A3 Ultra 和 A4 机型，以及 **GPUDirect** 相关功能，这些在方案中分别负责高性能网络和 GPU 通信。   # 在 Google Cloud 上使用 RDMA over Converged Ethernet 网络进行 AI **原始链接:** [https://cloud.google.com/blog/products/networking/rdma-rocev2-for-ai-workloads-on-google-cloud](https://cloud.google.com/blog/products/networking/rdma-rocev2-for-ai-workloads-on-google-cloud) **发布时间:** 2025-03-20 **厂商:** GCP **类型:** BLOG --- 网络 # 在 Google Cloud 上使用 RDMA over Converged Ethernet 网络进行 AI 2025 年 3 月 20 日 ![https://storage.googleapis.com/gweb-cloudblog-publish/images/0-hero-roce.max-2500x2500.png](https://storage.googleapis.com/gweb-cloudblog-publish/images/0-hero-roce.max-2500x2500.png) ##### Ammett Williams 开发者关系工程师 ##### Google Cloud Next 按需访问 Next 的热门亮点。 [立即观看](https://cloud.withgoogle.com/next/25?utm_source=cgc-blog&utm_medium=blog&utm_campaign=FY25-Q2-global-EXP106-physicalevent-er-next25-mc&utm_content=cgc-blog-left-hand-rail-post-next&utm_term=-) 并非所有工作负载都相同，尤其是针对 AI、机器学习 (Machine Learning) 和科学计算工作负载。在本博客中，我们将展示 Google Cloud 如何为高性能工作负载提供 [RDMA over Converged Ethernet 版本 2 (RoCE v2)](https://en.wikipedia.org/wiki/RDMA_over_Converged_Ethernet) 协议的支持。 ### **传统工作负载** 传统工作负载中的网络通信涉及一个已知的流程，包括： * 数据在源和目标之间移动，应用程序发起请求。 * 操作系统 (OS) 处理数据，添加 TCP 头部，并将其传递给网络接口卡 (NIC)。 * NIC 根据网络和路由信息发送数据。 * 接收端的 NIC 接收数据。 * 接收端的 OS 处理数据，剥离头部，并根据信息交付数据。这个过程涉及 CPU 和 [OS 处理](https://en.wikipedia.org/wiki/Process_management_(computing))，这些网络可以从延迟和数据包丢失问题中恢复，并处理各种大小的数据，同时正常运行。 ### **AI 工作负载** AI 工作负载非常敏感，涉及大型数据集，可能需要高带宽、低延迟和无损通信来进行训练和推理。由于运行这些作业的成本较高，因此必须尽快完成并优化处理。这可以通过加速器来实现——这些是专门设计来显著加速 AI 应用程序训练和执行的专用硬件。加速器的例子包括专用硬件芯片，如 [TPU](https://cloud.google.com/tpu/docs/intro-to-tpu#how_a_tpu_works) 和 [GPU](https://cloud.google.com/tpu/docs/intro-to-tpu#how_a_gpu_works)。 ### **RDMA** [远程直接内存访问 (Remote Direct Memory Access)](https://www.rfc-editor.org/rfc/rfc5040.html#section-1.1) 技术允许系统之间直接交换数据，而不涉及 OS、网络堆栈和 CPU。这可以加快处理时间，因为绕过了可能成为瓶颈的 CPU。让我们看看它如何与 GPU 一起工作。 * 一个支持 RDMA 的应用程序启动 RDMA 操作。 * 内核绕过发生，避免了 OS 和 CPU。 * 支持 RDMA 的网络硬件介入，访问源 GPU 内存，将数据传输到目标 GPU 内存。 * 在接收端，应用程序可以从 GPU 内存中检索信息，并向发送者发送通知作为确认。 ![https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1-rdma-flow.gif](https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1-rdma-flow.gif) RDMA 与 RoCE 的工作原理此前，Google Cloud 通过其原生网络堆栈支持类似 RDMA 的功能，例如 [GPUDirect-TCPX](https://cloud.google.com/compute/docs/gpus/gpudirect) 和 [GPUDirect-TCPXO](https://cloud.google.com/cluster-toolkit/docs/machine-learning/a3-mega-enable-gpudirect-tcpxo)。目前，该功能已扩展到 RoCE v2，这是在以太网上传输 RDMA。 ### **支持 RoCE v2 的计算实例** [A3 Ultra](https://cloud.google.com/ai-hypercomputer/docs/gpu#a3_ultra) 和 [A4](https://cloud.google.com/blog/products/compute/introducing-a4-vms-powered-by-nvidia-b200-gpu-aka-blackwell) 计算引擎机器类型利用 RoCE v2 进行高性能网络。每个节点支持八个支持 RDMA 的 NIC，这些 NIC 连接到隔离的 RDMA 网络。在节点内，直接的 GPU 到 GPU 通信通过 NVLink 进行，在节点之间通过 RoCE 进行。采用 RoCE v2 网络功能可以带来更多好处，包括： * 更低的延迟 * 增加的带宽——节点间 GPU 到 GPU 流量从 1.6 Tbps 增加到 3.2 Tbps * 无损通信，由于拥塞管理功能：[基于优先级的流量控制](https://1.ieee802.org/dcb/802-1qbb/) (PFC) 和 [显式拥塞通知](https://datatracker.ietf.org/doc/html/rfc3168) (ECN) * 使用 UDP 端口 4791 * 支持新的 VM 系列，如 A3 Ultra、A4 及后续版本 * 为大型集群部署提供可扩展性支持 * 优化的轨道设计网络 ![https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2-rail-aligned.gif](https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2-rail-aligned.gif) 轨道设计总体而言，这些功能可加快训练和推理，直接提升应用程序速度。这是通过一个专门的虚拟私有云 (VPC) 网络实现的，该网络针对此目的进行了优化。这种高性能连接是针对高需求应用程序的关键差异化优势。 ### **入门指南** 要启用这些功能，请按照以下步骤操作： 1. [创建预留](https://cloud.google.com/ai-hypercomputer/docs/request-capacity)：获取您的预留 ID；您可能需要与支持团队合作来请求容量。 2. [选择部署策略](https://cloud.google.com/ai-hypercomputer/docs/choose-strategy)：指定部署区域、可用区、网络配置文件、预留 ID 和方法。 3. 创建您的部署。您可以在以下文档中查看配置步骤和其他信息： * 文档：[超计算集群](https://cloud.google.com/ai-hypercomputer/docs/create/create-overview) * 博客：[AI 工作负载的跨云网络支持](https://cloud.google.com/blog/products/networking/cross-cloud-network-solutions-support-for-ai-workloads) * GCT YouTube 频道：[云开发者的 AI 指南](https://www.youtube.com/playlist?list=PLIivdWyY5sqJio2yeg1dlfILOUO2FoFRx) 有问题要问、想了解更多或分享想法？请在 [LinkedIn](https://www.linkedin.com/in/ammett/) 上联系我。发布于 * [网络](https://cloud.google.com/blog/products/networking) * [开发者和从业者](https://cloud.google.com/blog/topics/developers-practitioners)