<!-- AI_TASK_START: AI标题翻译 -->
[解决方案] 深入探讨 Google AI 时代全球网络背后的技术
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
# 产品功能分析
## 新功能/新产品概述
Google的AI时代全球网络是针对AI应用需求设计的下一代网络架构,核心目标是处理爆炸式流量增长、确保极高可靠性,并提供精细控制和自治操作。该产品适用于大规模AI训练和推理场景,针对行业需求如数据主权和性能优化。背景在于AI时代WAN流量平均**7X增长**和峰值流量数量级增加,强调四个关键原则:指数级可伸缩性、超过9s可靠性、意图驱动的可编程性和自治网络。
## 关键客户价值
- **可伸缩性和容量管理:** 通过多分片网络实现弹性横向扩展,允许添加独立分片应对AI工作负载的突发流量,避免传统架构的垂直扩展限制,与竞品相比(如AWS的单一网络模型),显著提升了资源利用率和成本效率。
- **可靠性提升:** 采用多分片隔离和**Protective ReRoute**技术,实现快速故障恢复,减少用户可见中断时间达_93%_,远超传统网络的路由修复方法,确保AI应用的高可用性,但可能在多供应商环境中增加集成复杂度。
- **细粒度控制和安全性:** 利用**SDN控制器**和标准化API,提供意图驱动的网络编程,支持数据主权和业务策略执行,相比其他云提供商(如Azure),更易实现自定义路径控制,适用于监管合规场景。
- **操作效率优化:** 通过AI/ML驱动的自治网络(如Gemini框架),将故障响应时间从小时缩短至分钟,降低运维成本和复杂性,与传统自动化相比,显著改善了AI时代网络管理的可扩展性。
## 关键技术洞察
- **多分片网络架构:** 基于弹性横向扩展原理,将网络分为多个独立分片,实现控制、数据和管理平面的隔离。该技术通过添加分片应对指数级流量增长,避免单点故障扩散,创新点在于借鉴数据中心设计,提升了AI工作负载的带宽处理能力,但在大规模部署中可能面临分片间协调的挑战。
- **Protective ReRoute机制:** 主机层级的流量重定向技术,检测路径异常并在RTT级别自动切换路径,实现鲁棒性恢复,与传统路由无关。该创新显著提高了网络可靠性,适用于各种故障类型,但依赖于主机端配置,可能在异构环境增加兼容性问题。
- **意图驱动编程:** 借助**Orion SDN控制器**和**MALT模型**,实现分层意图传播和多抽象层拓扑表示,支持多供应商互操作性。该技术增强了网络的敏捷性和策略执行,但实现需要精确的意图定义,可能受限于API标准化程度。
- **自治网络应用:** 利用AI/ML(如**AutoML**和强化学习),进行需求预测、路由优化和故障响应,减少人为干预。该创新点在于将AI集成到网络操作中,提升了效率和准确性,但潜在局限性包括模型训练数据依赖和AI决策的透明度问题。
## 其他信息
该产品发布于2025-04-23,由Google Cloud的杰出工程师Subhasree Mandal主导,旨在为AI时代提供基础网络支撑,未来可能扩展更多AI用例以适应行业演变。
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# 深入探讨 Google AI 时代全球网络背后的技术
**原始链接:** [https://cloud.google.com/blog/products/networking/google-global-network-technology-deep-dive](https://cloud.google.com/blog/products/networking/google-global-network-technology-deep-dive)
**发布时间:** 2025-04-23
**厂商:** GCP
**类型:** BLOG
---
网络
#
深入探讨 Google AI 时代全球网络背后的技术
2025 年 4 月 23 日
##### Subhasree Mandal
杰出工程师
##### 试用 Gemini 2.5
我们最智能的模型现已在 Vertex AI 上可用
[试用](https://console.cloud.google.com/vertex-ai/studio/freeform)
AI 应用的空前增长和独特挑战正在推动 Google 下一代全球网络的根本架构变革。
AI 时代带来了网络容量需求的爆炸式增长,以及大型模型训练和推理的独特流量模式。同时,对无懈可击可靠性的迫切需求达到了新高度;在 AI 驱动的世界中,中断根本无法接受。此外,加强安全性和细粒度控制的需求至关重要,包括数据主权 (Data Sovereignty) 方面的考虑。最后,传统网络架构在扩展时的运营成本和复杂性需要更创新的方法,推动我们超越基本自动化,迈向真正的自治。
正如我们在[这篇博文](https://cloud.google.com/blog/products/networking/google-global-network-principles-and-innovations) 中讨论的那样,我们正直面这些挑战,通过在四个关键架构原则基础上构建 Google 的下一代全球网络:(1) 指数级可扩展性,(2) 超过九个 9 的可靠性,(3) 意图驱动的可编程性,以及 (4) 自治网络。
在本博文中,让我们层层剖析,看看底层技术如何让这些原则成为现实。
### **指数级可扩展性:利用多分片网络**
我们通过**多分片网络 (Multi-shard network)** 作为核心架构原则,拥抱弹性水平扩展。对于 Google 的全球网络,我们不是构建一个单一的庞大网络,而是构建多个独立的片 (Shard)。这带来了几个好处:
- **水平扩展:** 当需要更多容量时,我们可以通过扩展单个片来扩容,或通过添加更多片来扩展,从而克服垂直扩展的限制和复杂性。这类似于添加更多独立网络,而不是试图让一个网络越来越大。
- **独立平面:** 在每个片中分离控制平面、数据平面和管理平面,能显著限制任何潜在问题的影响范围。一个片中的软件错误或操作失误(如错误的配置推送)不太可能影响其他片,从而提升网络的整体稳定性。

在 AI 时代,**广域网 (WAN) 已成为新局域网 (LAN),而大陆就是数据中心**。这种水平扩展方法,灵感来源于我们的大型数据中心结构设计,使 Google 的全球网络能够处理当今 AI 工作负载的前所未有带宽需求。这种多分片网络是我们应对 2020 年至 2025 年平均**7 倍 WAN 流量增长**的关键推动力,更重要的是,它处理了 ML 流量突发特性导致的峰值流量增长一个数量级。
### **超过九个 9 的可靠性:构建弹性架构**
在始终在线服务的世界中,可靠性至关重要。Google 的全球网络通过在堆栈的每个层引入创新,强调多样性和独立性,以避免“共享命运”(Cascading Failures) 并最小化故障影响,从而实现超过九个 9 的可用性。
- **多分片隔离:** 每个网络片拥有独立的数据平面、控制平面和管理平面。我们控制什么可以进入或离开这些片到集群或边缘。这防止了不良状态同时污染所有片。分片架构本身就提供了隔离度。此外,我们在部署网络片时采用多供应商 (Multi-vendor) 范式,这得益于多年开发开放 API 和模型(如后续讨论),使我们能够在同一网络功能下操作任何供应商平台。这种多供应商方法保护我们的网络片免受第三方软件或硬件漏洞的影响。
- **区域隔离:** 通过这种方法,区域核心保持流量在其领域内,区域网关强制执行进入或离开流量的策略。这限制了区域事件的冲击,有效地保护网络的其他部分。

- **[保护性重路由 (Protective ReRoute)](https://research.google/pubs/improving-network-availability-with-protective-reroute/):** Google 的全球网络实现了独特的传输技术,用于缩短用户可见中断时间,并补充路由修复。这标志着我们对网络可靠性的思考发生了根本性转变。在传统网络模型中,主机发送数据包,路由器处理它们。而在保护性重路由中,主机主动将流量转移到网络路径上,以改善可靠性和性能。它智能检测网络路径异常,并迅速、自动将流量重路由到健康的备用路径,该路径可能在同一片或另一个片中。主机在往返时间 (RTT) 级别上重路由流量,即 O(RTT),通过在数据包头部更改几个位来计算散列函数,从而在多个等效路径中选择特定路径。这种主机发起的重路由超越了传统路由和流量工程的保护能力,且独立于网络类型、网络规模或故障类型,从而提供稳健且确定的恢复和性能。通过在网络中实施保护性重路由,我们观察到累计中断时间减少了**高达 93%**。

有关这些可扩展性和弹性创新的概念概述,请查看此视频:

另外,别错过这个演示,展示我们多分片网络和保护性重路由的组合价值。在此,我们模拟一个网络片故障,并显示主机如何迅速检测路径故障并将流量路由到不同、健康的片上,提供近乎即时的恢复。

### **意图驱动的可编程性:实现细粒度网络控制**
为了满足客户多样化和不断演变的需求,网络敏捷性和细粒度可编程性至关重要。Google 的全球网络允许根据特定业务需求精确定制网络控制,包括监管合规、数字主权 (Digital Sovereignty) 要求,以及应用性能需求,直至最细粒度的网络属性。这种可编程性由以下实现:
- **[软件定义网络 (SDN) 控制器](https://research.google/pubs/orion-googles-software-defined-networking-control-plane/):** Google 的全球网络完全是意图驱动的,到处都是 SDN。我们使用 SDN 控制器分层管理网络行为。[Orion](https://research.google/pubs/orion-googles-software-defined-networking-control-plane/),我们的分层和联邦 SDN 控制平面平台,将顶级意图传播到网络控制应用的各个层,这些应用随后通过更新其内部状态并为每个网络交换机生成中间意图来响应。这种分层传播导致网络交换机的编程流状态发生变化。
- **[通用网络模型](https://research.google/pubs/experiences-with-modeling-network-topologies-at-multiple-levels-of-abstraction/):** 我们的通用网络模型,即多抽象层拓扑表示 (Multi-Abstraction-Layer Topology representation,或 [MALT](https://research.google/pubs/experiences-with-modeling-network-topologies-at-multiple-levels-of-abstraction/) ),允许我们指定通用意图和业务策略。然后,我们的控制和管理平面可以使用这些表示在整个网络中一致实施这些策略。
- **[标准化 API](https://www.openconfig.net/):** 因为我们依赖 OpenConfig 软件层,我们可以互换使用多个路由供应商,使网络更稳健。通过供应商多样性,一个供应商的软件或硬件问题不会影响整个网络,并在扩展网络时提供更多选项。
这种可编程性使我们能够直接将业务策略实施到网络结构中,提供细粒度控制并为关键应用隔离带宽。有特定监管要求的客户也可以利用这种可编程性来强制执行其数据在传输中的期望网络路径控制。
### **自治网络:为驱动 AI 的网络提供支持**
全球网络的庞大规模和复杂性要求从传统自动化转向更智能、自治的方法,这需要最少的人工干预。这一点尤其重要,以避免网络增长带来的运营费用大幅增加,并平滑网络规划、设计和运营的成本曲线。以下是一些我们当前应用 AI/ML 技术的示例。我们看到机会扩展到更多用例:
- **使用 Gemini 和 Vertex AI 代理框架的网络事件响应:** 我们采用代理式 AI 方法,通过更快识别和缓解故障,以及进行更有效的根本原因分析,来缩短中断时间。这有助于减少检测平均时间和解决平均时间。
- **需求预测和容量规划:** 我们使用 [AutoML](https://cloud.google.com/automl) 进行准确的需求预测,并采用图优化来优化网络容量规划。
- **强化学习用于路由优化:** 我们使用强化学习调整路由指标,以实现特定目标,如网络性能。
自治网络使我们将故障缓解时间从小时缩短到分钟,提高了网络的弹性和客户体验。查看这个演示,了解我们自治网络的示例!

### **综合起来**
Google 的下一代全球网络代表了网络架构的范式转变,旨在驱动 AI 时代,通过多分片实现水平可扩展性,在每个层通过区域隔离和保护性重路由构建弹性,使用 SDN 启用细粒度可编程性,并采用由 AI/ML 驱动的自治网络操作。这帮助 Google 的全球网络提供当今关键任务服务和 AI/ML 应用所需的规模、可靠性、性能和安全。这种 Google 软件定义全球骨干网的转变不仅应对了 AI 时代的严峻挑战,还赋予我们的客户在这一新景观中创新和繁荣。我们的下一代网络旨在成为推动技术和连接未来的隐形却不可或缺的力量。
这份深入探讨仅触及表面,但希望能让您一窥 Google 全球网络的创新技术。随着我们继续应对 AI 时代的激动人心的挑战和机会,Google 的全球网络将成为我们为全球用户和客户构建和交付变革性体验的基石。敬请期待更多更新,因为 Google 的全球网络将继续演进!
发布于
- [网络](https://cloud.google.com/blog/products/networking)
- [Google Cloud Next](https://cloud.google.com/blog/topics/google-cloud-next)
<!-- AI_TASK_END: AI全文翻译 -->