<!-- AI_TASK_START: AI标题翻译 -->
[解决方案] 在 Google Cloud 上使用 RDMA over Converged Ethernet 网络进行 AI
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
# 产品功能分析
## 新功能/新产品概述
Google Cloud 引入 **RDMA over Converged Ethernet v2 (RoCE v2)** 协议,针对 AI、机器学习和科学计算工作负载提供高性能网络支持。该功能的核心在于实现直接内存访问,绕过操作系统和 CPU 处理,旨在加速数据传输并优化资源利用。背景是传统工作负载依赖标准网络流程,而 AI 工作负载需处理大规模数据集,需求高带宽、低延迟和无损通信。目标用户群包括使用加速器如 **TPU** 和 **GPU** 的开发者,市场定位聚焦于云计算环境中提升训练和推理效率,尤其适用于 A3 Ultra 和 A4 机型部署。
## 关键客户价值
- **降低延迟和提升带宽**:RoCE v2 提供无损通信,通过 **Priority-based Flow Control (PFC)** 和 **Explicit Congestion Notification (ECN)** 管理拥塞,实现节点间 GPU 到 GPU 流量从 _1.6 Tbps_ 到 _3.2 Tbps_ 的提升,这显著加快 AI 任务执行,与传统网络相比减少了 CPU 瓶颈带来的延时。
- **优化资源利用和可扩展性**:支持大规模集群部署和突发流量场景,相比传统 IaaS 架构,该功能减少了网络故障恢复时间,提升了整体应用速度,但在大规模组网时可能增加管理复杂度。
- **业务场景差异化**:在 AI 推理和训练中,RoCE v2 使高性能连接成为关键优势,例如在科学计算中实现更快的数据交换,相比竞品如 AWS 或 Azure 的类似功能,其专用 VPC 网络设计更优化了硬件整合。
## 关键技术洞察
- **RDMA 工作原理**:**Remote Direct Memory Access (RDMA)** 允许设备直接访问远程内存,绕过内核和 CPU,具体通过 RoCE v2 在以太网上传输数据,使用 **UDP 端口 4791** 实现高效通信。这技术创新点在于减少 OS 处理开销,提升数据传输速度,对性能的影响包括降低延迟和提高带宽利用率。
- **与硬件整合**:RoCE v2 与 **NVLink** 结合,支持节点内 GPU 直接通信和节点间高速连接,采用优化轨道设计(rail-designed network),这增强了可用性和安全性,但可能面临网络配置复杂性的挑战。
- **创新点影响**:该协议扩展了 Google Cloud 的原有 **GPUDirect-TCPX** 和 **GPUDirect-TCPXO** 能力,支持更大规模部署,提升了 AI 工作负载的吞吐量和可靠性;然而,在高拥塞场景下,虽然 PFC 和 ECN 提供无损保障,但实际实现需依赖正确网络配置以避免潜在兼容性问题。
## 其他信息
- **实施步骤**:用户可通过创建容量预留、选择部署策略(如指定区域和网络配置文件)并执行部署来启用 RoCE v2,支持相关文档如 [Hypercompute Cluster 指南](https://cloud.google.com/ai-hypercomputer/docs/create/create-overview)。
- **涉及产品**:包括 A3 Ultra 和 A4 机型,以及 **GPUDirect** 相关功能,这些在方案中分别负责高性能网络和 GPU 通信。
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# 在 Google Cloud 上使用 RDMA over Converged Ethernet 网络进行 AI
**原始链接:** [https://cloud.google.com/blog/products/networking/rdma-rocev2-for-ai-workloads-on-google-cloud](https://cloud.google.com/blog/products/networking/rdma-rocev2-for-ai-workloads-on-google-cloud)
**发布时间:** 2025-03-20
**厂商:** GCP
**类型:** BLOG
---
网络
#
在 Google Cloud 上使用 RDMA over Converged Ethernet 网络进行 AI
2025 年 3 月 20 日

##### Ammett Williams
开发者关系工程师
##### Google Cloud Next
按需访问 Next 的热门亮点。
[立即观看](https://cloud.withgoogle.com/next/25?utm_source=cgc-blog&utm_medium=blog&utm_campaign=FY25-Q2-global-EXP106-physicalevent-er-next25-mc&utm_content=cgc-blog-left-hand-rail-post-next&utm_term=-)
并非所有工作负载都相同,尤其是针对 AI、机器学习 (Machine Learning) 和科学计算工作负载。在本博客中,我们将展示 Google Cloud 如何为高性能工作负载提供 [RDMA over Converged Ethernet 版本 2 (RoCE v2)](https://en.wikipedia.org/wiki/RDMA_over_Converged_Ethernet) 协议的支持。
### **传统工作负载**
传统工作负载中的网络通信涉及一个已知的流程,包括:
* 数据在源和目标之间移动,应用程序发起请求。
* 操作系统 (OS) 处理数据,添加 TCP 头部,并将其传递给网络接口卡 (NIC)。
* NIC 根据网络和路由信息发送数据。
* 接收端的 NIC 接收数据。
* 接收端的 OS 处理数据,剥离头部,并根据信息交付数据。
这个过程涉及 CPU 和 [OS 处理](https://en.wikipedia.org/wiki/Process_management_(computing)),这些网络可以从延迟和数据包丢失问题中恢复,并处理各种大小的数据,同时正常运行。
### **AI 工作负载**
AI 工作负载非常敏感,涉及大型数据集,可能需要高带宽、低延迟和无损通信来进行训练和推理。由于运行这些作业的成本较高,因此必须尽快完成并优化处理。这可以通过加速器来实现——这些是专门设计来显著加速 AI 应用程序训练和执行的专用硬件。加速器的例子包括专用硬件芯片,如 [TPU](https://cloud.google.com/tpu/docs/intro-to-tpu#how_a_tpu_works) 和 [GPU](https://cloud.google.com/tpu/docs/intro-to-tpu#how_a_gpu_works)。
### **RDMA**
[远程直接内存访问 (Remote Direct Memory Access)](https://www.rfc-editor.org/rfc/rfc5040.html#section-1.1) 技术允许系统之间直接交换数据,而不涉及 OS、网络堆栈和 CPU。这可以加快处理时间,因为绕过了可能成为瓶颈的 CPU。
让我们看看它如何与 GPU 一起工作。
* 一个支持 RDMA 的应用程序启动 RDMA 操作。
* 内核绕过发生,避免了 OS 和 CPU。
* 支持 RDMA 的网络硬件介入,访问源 GPU 内存,将数据传输到目标 GPU 内存。
* 在接收端,应用程序可以从 GPU 内存中检索信息,并向发送者发送通知作为确认。

RDMA 与 RoCE 的工作原理
此前,Google Cloud 通过其原生网络堆栈支持类似 RDMA 的功能,例如 [GPUDirect-TCPX](https://cloud.google.com/compute/docs/gpus/gpudirect) 和 [GPUDirect-TCPXO](https://cloud.google.com/cluster-toolkit/docs/machine-learning/a3-mega-enable-gpudirect-tcpxo)。目前,该功能已扩展到 RoCE v2,这是在以太网上传输 RDMA。
### **支持 RoCE v2 的计算实例**
[A3 Ultra](https://cloud.google.com/ai-hypercomputer/docs/gpu#a3_ultra) 和 [A4](https://cloud.google.com/blog/products/compute/introducing-a4-vms-powered-by-nvidia-b200-gpu-aka-blackwell) 计算引擎机器类型利用 RoCE v2 进行高性能网络。每个节点支持八个支持 RDMA 的 NIC,这些 NIC 连接到隔离的 RDMA 网络。在节点内,直接的 GPU 到 GPU 通信通过 NVLink 进行,在节点之间通过 RoCE 进行。
采用 RoCE v2 网络功能可以带来更多好处,包括:
* 更低的延迟
* 增加的带宽——节点间 GPU 到 GPU 流量从 1.6 Tbps 增加到 3.2 Tbps
* 无损通信,由于拥塞管理功能:[基于优先级的流量控制](https://1.ieee802.org/dcb/802-1qbb/) (PFC) 和 [显式拥塞通知](https://datatracker.ietf.org/doc/html/rfc3168) (ECN)
* 使用 UDP 端口 4791
* 支持新的 VM 系列,如 A3 Ultra、A4 及后续版本
* 为大型集群部署提供可扩展性支持
* 优化的轨道设计网络

轨道设计
总体而言,这些功能可加快训练和推理,直接提升应用程序速度。这是通过一个专门的虚拟私有云 (VPC) 网络实现的,该网络针对此目的进行了优化。这种高性能连接是针对高需求应用程序的关键差异化优势。
### **入门指南**
要启用这些功能,请按照以下步骤操作:
1. [创建预留](https://cloud.google.com/ai-hypercomputer/docs/request-capacity):获取您的预留 ID;您可能需要与支持团队合作来请求容量。
2. [选择部署策略](https://cloud.google.com/ai-hypercomputer/docs/choose-strategy):指定部署区域、可用区、网络配置文件、预留 ID 和方法。
3. 创建您的部署。
您可以在以下文档中查看配置步骤和其他信息:
* 文档:[超计算集群](https://cloud.google.com/ai-hypercomputer/docs/create/create-overview)
* 博客:[AI 工作负载的跨云网络支持](https://cloud.google.com/blog/products/networking/cross-cloud-network-solutions-support-for-ai-workloads)
* GCT YouTube 频道:[云开发者的 AI 指南](https://www.youtube.com/playlist?list=PLIivdWyY5sqJio2yeg1dlfILOUO2FoFRx)
有问题要问、想了解更多或分享想法?请在 [LinkedIn](https://www.linkedin.com/in/ammett/) 上联系我。
发布于
* [网络](https://cloud.google.com/blog/products/networking)
* [开发者和从业者](https://cloud.google.com/blog/topics/developers-practitioners)
<!-- AI_TASK_END: AI全文翻译 -->