<!-- AI_TASK_START: AI标题翻译 -->
[新产品/新功能] Google 人工智能驱动的下一代全球网络:为 Gemini 时代而建
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
# 产品功能分析
## 新功能/新产品概述
Google Cloud 推出的 AI 驱动的下一代全球网络,旨在适应 **Gemini** 时代的需求。该产品核心定义为一个高度可扩展、安全且自治的网络基础设施,目标是支持 AI 工作负载的全球部署。背景源于 Google 25 年来在网络技术上的持续创新,从互联网时代到 **AI 时代** 的演变,解决的问题包括处理 AI 引发的海量数据流量、确保高可靠性以及满足合规要求。目标用户群包括云服务提供商、企业客户和终端用户,市场定位聚焦于全球规模的 AI 基础设施,提供一致的高性能体验。
## 关键客户价值
- **容量和弹性提升**:通过全球网络的扩展,企业客户可实现 24x7 的应用韧性,支持 AI/ML 工作负载的动态扩展,与传统网络相比,显著降低了因流量突发导致的延时问题,实现更高效的资源利用。
- **可靠性与安全保障**:提供 **零信任原则** 的安全机制,确保数据完整性和合规性,例如通过区域隔离限制故障影响半径,相比竞品如 AWS 或 Azure,用户可获得更低的可用性中断风险,提升了关键业务的连续性。
- **成本和效率优化**:AI 驱动的自治操作减少了维护工作量,例如故障缓解时间从小时缩短到分钟,显著提高了 ROI;在不同场景中,如全球企业连接,**Cloud WAN** 帮助客户简化网络管理,降低运营复杂性。
- **用户体验改善**:终端用户受益于全球覆盖和低延迟,支持实时应用,如视频流和搜索服务,相比传统架构,该产品在 AI 时代提供更具差异化的性能优势,但需注意大规模部署可能带来的初始配置复杂度。
## 关键技术洞察
- **多分片网络架构**:采用 **多分片隔离** 技术,实现弹性横向扩展,每个分片独立运行,支持 WAN 带宽从 2020 到 2025 年增长 _7x_,工作原理是通过独立控制面和数据面处理流量,避免单点故障。该创新点提升了网络的可扩展性和性能,但在大规模 AI 流量下,可能面临分片间协调的挑战。
- **可靠性机制**:引入 **Protective ReRoute** 技术,缩短故障检测和路由时间,实现累计中断时间减少 _93%_,其原理为快速检测网络故障并动态重路由,相比传统 SDN,这提高了 **Beyond-9s 可靠性**,优势在于最小化长尾事件影响;然而,在极端故障场景中,仍需依赖整体系统韧性以避免潜在的级联效应。
- **意图驱动可编程性**:基于 **SDN 控制器** 和标准 API(如 **MALT** 模型),实现细粒度网络控制,支持安全和合规需求,例如数据主权管理。该技术创新通过 **ML 驱动的自治网络**,如使用图神经网络(GNN)预测故障,减少人为干预,显著提升了效率和安全性;但可能存在算法模型训练数据依赖的问题,影响预测准确性。
- **自治操作**:利用 **ML** 和数字孪生技术,从事件驱动转向自主运行,优化容量规划和故障根因分析,优势在于实时预测和预防中断,但在大规模部署中,模型泛化能力可能成为局限性,需要持续迭代以适应多样化 AI 流量模式。
## 其他信息
发布于 2025-04-10 的 Google Cloud Next 相关博客,强调了与 **Cloud WAN** 的整合,支持全球企业连接,用户可通过相关 session 了解更多细节。
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# Google 的 AI 驱动下一代全球网络:专为 Gemini 时代打造
**原始链接:** [https://cloud.google.com/blog/products/networking/google-global-network-principles-and-innovations](https://cloud.google.com/blog/products/networking/google-global-network-principles-and-innovations)
**发布时间:** 2025-04-10
**厂商:** GCP
**类型:** BLOG
---
Networking
#
Google 的 AI 驱动下一代全球网络:专为 Gemini 时代打造
2025 年 4 月 10 日

##### Bikash Koley
副总裁,全球网络和基础设施
##### Google Cloud Next
按需访问 Next 的热门亮点。
[立即观看](https://cloud.withgoogle.com/next/25?utm_source=cgc-blog&utm_medium=blog&utm_campaign=FY25-Q2-global-EXP106-physicalevent-er-next25-mc&utm_content=cgc-blog-left-hand-rail-post-next&utm_term=-)
从回答搜索查询,到流式传输 YouTube 视频,再到处理最苛刻的云工作负载,多年来我们一直在不懈推动网络技术边界,构建了一个全球基础设施,为全球数十亿用户和企业客户提供支持 Google 和 Google 云服务。我们现在正处于另一个关键时刻,由 AI (Artificial Intelligence) 的变革性力量驱动,我们的网络正在再次演变,以应对这一新时代的挑战和机遇。
以下是我们的全球网络演变幕后故事,从支持早期网络搜索,到如今 [驱动](https://cloud.google.com/blog/products/networking/connect-globally-with-cloud-wan-for-the-ai-era) 苛刻的 AI 工作负载,将 AI 的益处带给每个人和企业。
### **我们的网络演变**
过去 25 年间,Google 网络经历了几个根本性转折点,导致形成了三个不同的网络时代:
**互联网时代:** 我们的旅程始于互联网时代,当时我们主要专注于为全球用户提供一致的高质量体验,包括在可靠性和延迟方面,无论他们使用的是搜索、地图还是 Gmail。关键创新包括 B2 网络; [带宽强制器](https://research.google/pubs/bwe-flexible-hierarchical-bandwidth-allocation-for-wan-distributed-computing-2/) (Bandwidth Enforcer,简称 BwE); [B4](https://research.google/pubs/b4-and-after-managing-hierarchy-partitioning-and-asymmetry-for-availability-and-scale-in-googles-software-defined-wan/),我们首个完全软件定义的骨干网;我们的 [Orion](https://research.google/pubs/orion-googles-software-defined-networking-control-plane/) 软件定义网络 (Software-Defined Networking,简称 SDN) 控制器;以及我们的宠物比特级 SDN 数据中心结构 [Jupiter](https://research.google/pubs/jupiter-evolving-transforming-googles-datacenter-network-via-optical-circuit-switches-and-software-defined-networking/)。
**流媒体时代:** 随着 YouTube 和类似服务的兴起,流媒体视频成为全球互联网流量的重要组成部分,这种趋势持续至今。我们通过 [Google 全球缓存](https://support.google.com/interconnect/answer/9058809?hl=en) (Google Global Cache)、 [Espresso](https://research.google/pubs/taking-the-edge-off-with-espresso-scale-reliability-and-programmability-for-global-internet-peering/)、 [QUIC](https://research.google/pubs/the-quic-transport-protocol-design-and-internet-scale-deployment/) 和 [TCP BBR](https://research.google/pubs/bbr-congestion-based-congestion-control/) 等技术,使网络适应全球范围内低抖动和高品质视频交付。
**云时代:** 云计算的兴起需要更高的弹性、多租户和安全性,这激发了诸如 [Andromeda](https://research.google/pubs/andromeda-performance-isolation-and-velocity-at-scale-in-cloud-network-virtualization/)、 [gRPC](https://grpc.io/about/)、 [PSP](https://cloud.google.com/blog/products/identity-security/announcing-psp-security-protocol-is-now-open-source?e=48754805) 和 [Swift](https://research.google/pubs/swift-delay-is-simple-and-effective-for-congestion-control-in-the-datacenter/) 等创新。
除了技术创新之外,我们的网络覆盖范围必须持续扩展,以为每个 Google 用户和客户提供一致的高质量体验。今天,这个网络跨越超过 200 万英里的光纤,包括 33 条海底电缆投资,拥有 202 个网络边缘位置和超过 3000 个媒体内容交付网络 (Content Delivery Network,简称 CDN) 位置,遍布全球。它连接了 42 个 Google 云区域和 127 个可用区 (Availability Zone)。我们还是全球 [最深入对等](https://bgp.tools/rankings/US?sort=peering) 的云服务提供商网络。

### **AI 驱动前所未有的网络需求**
正如 Sundar 在其 [2024 Google I/O 主题演讲](https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/#gemini-era) 中所指出的,我们在过去十年中一直采用 AI 优先的方法,在整个技术栈中进行投资和创新。从研究和产品到基础设施 — 我们的全球网络推动这些 AI 创新,并将它们带到世界各地。我们的 15 个拥有 5 亿用户的半亿级产品 — 包括 7 个拥有 20 亿用户的 — 都由我们的 Gemini 模型驱动,所有这些都依赖于 Google 全球网络,以实现我们的最终目标:让 AI 造福每个人。我们对此责任非常重视。
AI 时代带来了独特挑战,需要从四个关键角度重新思考我们的网络架构:
- **广域网 (WAN) 成为新的局域网 (LAN):** 在 AI 时代,我们在多个校区甚至多个城市之间训练最大的基础模型,以整合大量 TPU (Tensor Processing Unit)。可扩展性的需求从未如此紧迫,既针对 Gemini,也针对客户在 Google 云基础设施上构建基础模型。而且,这些机器学习应用具有独特的流量模式,例如高度突发性的 [大象流](https://en.wikipedia.org/wiki/Elephant_flow) (elephant flows)。理解和管理这些流对于高效网络性能至关重要。
- **AI 要求零中断影响:** 基础模型的训练、微调和推理是资源密集型过程,依赖于宝贵的 GPU/TPU 资源,长时间中断会造成重大破坏。换句话说,网络中断是不可接受的 — 我们的客户期望始终在线的连接容量。
- **加强安全性和控制需求:** AI 模型及其训练数据必须得到保护,以确保其完整性。此外,不同区域对 AI 模型和传输中数据的合规要求也在不断演变。
- **运营卓越性:** 从创建站点可靠性工程 (Site Reliability Engineering,简称 SRE) 原则,到利用 AI/ML 创新进行运营,再到使用 ML 查找故障根本原因,我们一直在探索新方法,以在网络运营中实现卓越。同时,与线性扩展相关的成本和复杂性挑战促使我们寻求高效且可持续的解决方案。
### **新的网络设计原则和创新**
为了应对这些挑战,我们从头重新构想我们的下一代网络,确立了四个新的设计原则。

1. **指数级可扩展性:** 我们的网络需要具备处理海量数据和流量的能力和灵活性,尤其是在服务 AI 流量的关键区域。可扩展性的需求从未如此强烈。在 AI 时代, **广域网 (WAN) 成为新的局域网 (LAN)**,**洲际范围成为数据中心**。
2. **超越 9s 可靠性:** 行业传统上以“3 9s”、“4 9s”或“5 9s”的可用性来衡量可靠性。但这已不足以应对长尾事件,即使这些事件符合 x-9s 规范。我们的用户和客户期望确定性性能、有限影响半径,以及主动和超快速缓解。我们正致力于实现“超越 9s”。
3. **意图驱动的可编程性:** 数十亿人使用我们的网络。他们对安全、合规、弹性、性能和效率有独特要求。为满足所有这些,我们需要一个完全意图驱动、高度可编程的网络。
4. **自治网络:** 自动化和零触控在过去十年一直是热门词汇。要支持下一个十年的需求,我们需要自治网络,能够在规模化环境中 24x7 运行,几乎无需人工干预。
在这些四个设计原则的指导下,我们通过进行基础网络进展,构建了我们的下一代全球网络。
**多分片网络:** 我们正超越传统垂直扩展限制,转向弹性水平可扩展性,使用多分片网络架构。每个网络分片是独立的,并支持水平扩展;不仅可以在分片内扩展网络,还可以扩展网络中的分片数量。这使我们能够快速、大量增长广域网带宽,以支持 AI 基础设施需求。事实上,从 2020 年到 2025 年,我们的广域网带宽增长了惊人的 **7 倍**。
**多分片隔离、区域隔离和保护性重路由:** 我们的每个网络分片都有自己的控制平面、数据平面和管理平面,并独立运行。这种多分片隔离为我们规模的全球骨干网提供了罕见的高级弹性;实际上,它相当于通过多个独立全球互联网服务提供商 (Internet Service Provider,简称 ISP) 实现的弹性水平,而无需管理多个网络的复杂性。区域隔离可最小化故障影响并限制影响半径。 [保护性重路由](https://dl.acm.org/doi/10.1145/3603269.3604867) (Protective ReRoute) 是一种传输技术,用于缩短用户可见中断时间,它让主机能够在几秒内快速检测并绕过网络故障。在我们的网络中部署保护性重路由后,我们观察到累计中断分钟减少了 **93%**。
**完全意图驱动的细粒度可编程性:** 我们构建了一个高度可编程的网络,使用 SDN 控制器、标准 API 和通用网络模型,如 [MALT](https://research.google/pubs/experiences-with-modeling-network-topologies-at-multiple-levels-of-abstraction/) (Multi-Abstraction-Layer Topology 表示)。这使我们能够实现完全意图驱动的网络控制,从而根据特定应用需求定制网络,并满足客户独特需求。例如,这些控制可用于监管合规和数据主权,包括对传输中数据的控制。
**自治网络:** 在过去十年中,我们已将网络从事件驱动转变为机器驱动,再到如今的自治运营。这一进程得益于机器学习 (Machine Learning,简称 ML),它为我们提供可操作的智能。受 [Google DeepMind 的工作](https://deepmind.google/discover/blog/traffic-prediction-with-advanced-graph-neural-networks/) 启发,使用图神经网络 (Graph Neural Networks,简称 GNN) 进行 Google 地图的精确到达时间预测,我们使用 GNN 创建了网络的数字孪生 (Digital Twin)。这个孪生体让我们能够预测和预防中断、快速定位故障及其根本原因,并优化网络容量规划。结果,我们观察到故障缓解时间从 **小时缩短到分钟**,从而提高网络效率和弹性,几乎无需人工干预。
### **一个释放 AI 全部潜力的网络**
对于云客户,Google 的全球网络提供了容量、弹性和规模,以有效部署和利用 AI,确保 24x7 应用弹性、可靠网络、通过零信任原则实现安全,以及满足 AI/ML 应用需求的功能。此外,AI 驱动的效率减少了维护负担、实现了更快恢复,并提高了投资回报率。而且,从今天开始,通过 [Cloud WAN](https://cloud.google.com/blog/products/networking/connect-globally-with-cloud-wan-for-the-ai-era),Google 云客户可以使用 Google 的全球网络连接其全球企业。对于终端用户,这转化为扩展的全球覆盖、弹性关键任务应用、保护数据的零信任安全,以及适用于高强度实时应用的性能网络。这些共同确保了出色的用户体验。
这是一个真正激动人心的时刻,我们将继续推动网络技术边界,并实现它为 AI 时代客户带来的变革潜力。
要了解更多,请加入我们参加 [Google Cloud Next 2025 会话](https://cloud.withgoogle.com/next/25?session=BRK2-133&utm_source=copylink&utm_medium=unpaidsoc&utm_campaign=FY25-Q2-global-EXP106-physicalevent-er-next25-mc&utm_content=reg-is-live-next-homepage-social-share&utm_term=-),我们将在那里分享更多细节,并展示我们的网络如何继续支持 Google 的使命,并在 Gemini 时代推动客户成功。敬请关注未来关于驱动 Google 下一代全球网络的突破性创新的博客。
发布于
- [网络](https://cloud.google.com/blog/products/networking)
- [Google Cloud Next](https://cloud.google.com/blog/topics/google-cloud-next)
<!-- AI_TASK_END: AI全文翻译 -->