<!-- AI_TASK_START: AI标题翻译 -->
[解决方案] Lemongrass 成功案例:使用 AWS Cloud WAN 增强多区域 SD-WAN 故障转移
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
# 解决方案分析
## 解决方案概述
Lemongrass Consulting 通过实施 AWS Cloud WAN 增强了多区域 SD-WAN 故障转移解决方案,核心内容是利用 **AWS Cloud WAN** 提供基于意图的路由,实现多 AWS 区域间的无缝连接和动态故障转移。该方案解决的企业级网络连接挑战包括管理大规模多区域网络、确保高可用性和动态路由,同时支持与本地环境的集成。适用场景为混合云环境,特别是需要跨区域冗余和灾难恢复的企业,如金融、零售等行业。技术原理基于 **BGP** 动态路由协议和 **AS_PATH 预加** 机制,实现路由优先级控制和自动切换,避免手动干预。背景是传统 Transit Gateway 依赖静态路由,限制了动态故障转移,而 AWS Cloud WAN 通过集中式管理提升了网络弹性。
## 实施步骤
1. **AWS Cloud WAN 核心网络设置**
部署 AWS Cloud WAN 核心网络,并在每个参与区域中配置 Core Network Edges (CNEs),定义唯一的 BGP 自治系统号 (ASN) 以避免路由冲突,并分配专用 IP 范围用于 GRE 隧道连接。
理由:此步骤建立基础架构,确保与现有网络兼容,减少潜在冲突。
2. **网络分段和路由管理**
创建两个网络分段:Egress 分段用于 SD-WAN 连接,Transit 分段用于 Transit Gateway 与 AWS Cloud WAN 的路由表连接,并启用自动路由共享。
理由:分段管理简化路由控制,逻辑衔接上,这是为了在保持现有架构的同时引入动态路由。
3. **AWS Cloud WAN 与 Transit Gateway 集成**
为 AWS Cloud WAN 创建专用 Transit Gateway 路由表,并建立路由传播验证同步。
理由:确保跨区域路由一致性,避免中断,衔接上依赖 BGP 协议实现无缝集成。
4. **SD-WAN 连接迁移**
在 SD-WAN 设备上部署新 Elastic Network Interfaces (ENIs),建立 GRE 隧道到 AWS Cloud WAN Egress 分段,同时维护并行连接以优先使用现有 Transit Gateway。
理由:最小化生产环境中断,通过 BGP 路由评估顺序渐进过渡。
5. **生产切换和验证**
禁用 Transit Gateway 的 BGP 会话,激活 AWS Cloud WAN 路由广告,使用 Route Analyzer 验证传播,并进行全面故障测试。
理由:确保切换后路由正确,并测试多级冗余,衔接上这是整个过程的最终验证步骤。
## 方案客户价值
- **无缝多区域故障转移**:实现自动 BGP 路由切换,相比传统静态路由方案,减少手动干预,提升网络弹性;量化收益体现在测试中无流量丢失,提高了可用性。
- **简化网络管理**:AWS Cloud WAN 的意图-based 路由政策使管理更高效,与传统 Transit Gateway 相比,降低了复杂性,实现了更灵活的流量控制。
- **最小化迁移中断**:过渡过程保持并行连接,确保连续操作,与传统方案差异在于避免了停机风险。
- **提升整体效率**:保留现有基础设施的同时,优化跨区域路由,业务价值包括操作效率提高和未来扩展能力。
## 涉及的相关产品
- **AWS Cloud WAN**:用于多区域网络管理和动态路由,提供集中式控制和自动故障转移。
- **AWS Transit Gateway**:作为区域内连接的中心枢纽,在方案中处理 VPC 到 VPC 的流量,同时与 Cloud WAN 集成以支持动态路由。
- **Amazon EC2**:托管 SD-WAN 设备实例,确保高可用性部署在不同可用区。
- **BGP 和 GRE 隧道**:作为协议和连接机制,分别用于路由传播和安全隧道建立,在方案中增强冗余。
## 技术评估
优势包括:技术先进性体现在 AWS Cloud WAN 的自动化路由和意图-based 管理,支持动态故障转移,提高了多区域网络的可行性;适用于大规模混合云环境,提供比传统静态路由更强的适应性。局限性可能在于依赖 BGP 配置,可能增加初始复杂性,且未完全替换 Transit Gateway,适合特定场景如需要保留区域内连接的架构。如果扩展到更多区域,需评估成本和性能,但基于原文,此方案在测试中证明了可靠性和未来扩展潜力。
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# 一个 Lemongrass 成功案例:使用 AWS Cloud WAN 提升多 Region (Region) 故障切换
**原始链接:** [https://aws.amazon.com/blogs/networking-and-content-delivery/a-lemongrass-success-story-enhancing-multi-region-sd-wan-failover-with-aws-cloud-wan/](https://aws.amazon.com/blogs/networking-and-content-delivery/a-lemongrass-success-story-enhancing-multi-region-sd-wan-failover-with-aws-cloud-wan/)
**发布时间:** 2025-07-09
**厂商:** AWS
**类型:** BLOG
---
在规模化管理多 Region (Region) 网络连接方面,是现代企业的关键挑战。在 [Lemongrass Consulting](https://lemongrasscloud.com/),我们通过实施 [AWS Cloud WAN](https://docs.aws.amazon.com/network-manager/latest/cloudwan/what-is-cloudwan.html) 提升了我们的 Amazon Web Services (AWS) 网络架构。这使我们能够在多个 AWS Region (Region) 之间实现基于意图的路由,同时通过 SD-WAN (Software-Defined Wide Area Network) 实现与本地环境的无缝集成。在这个多 Region (Region) AWS 环境中,我们在整个转型过程中保持了现有 [AWS Transit Gateway](https://aws.amazon.com/transit-gateway/) 基础设施的稳定运行。这个解决方案提供了动态故障切换功能,并提升了整体网络弹性。
在本帖中,我们展示 AWS Cloud WAN 如何帮助我们构建高效的跨 Region (Region) 网络架构,并实现自动化故障切换机制。我们将逐步介绍我们的实施过程,分享关键见解和最佳实践,这些使我们能够在最小化对客户环境干扰的情况下完成此次转型。
## 客户环境
在 Lemongrass,我们为众多企业客户管理 AWS 环境,使用 Transit Gateway 实现中心辐射式网络架构。该架构以 Transit Gateway 作为中心,连接每个 AWS Region (Region) 中的辐射 VPC (Virtual Private Cloud),并通过 Transit Gateway 互连实现 Region (Region) 间连接。
我们的一位客户运营混合云网络,其中 SD-WAN 设备促进 Lemongrass 的 AWS 环境与客户本地网络的连接。这些设备采用高可用性配置,在两个 Availability Zone (AZ) (可用区) 中分布主备实例。它们使用 [Transit Gateway Connect attachments](https://docs.aws.amazon.com/vpc/latest/tgw/tgw-connect.html) 连接到 Transit Gateway,每个设备维护两个 Generic Routing Encapsulation (GRE) 隧道以实现冗余。该设置实现了 Border Gateway Protocol (BGP) 路由在本地和 AWS 环境之间的无缝传播。
SD-WAN 设备以主动-被动模式设置,使用两个基于 [Amazon Elastic Compute Cloud (Amazon EC2)](https://aws.amazon.com/ec2/) 的实例,每个实例向 Transit Gateway 建立两个 GRE 隧道。每个实例部署在不同的 AZ (可用区) 中,并通过 BGP 广告本地前缀到 Transit Gateway。两个设备持续广告相同的前缀,但通过 BGP AS_PATH 预处理控制主备行为。例如,SD-WAN 设备 1 以 AS_PATH 65000 广告前缀,而 SD-WAN 设备 2 预处理另一个 AS 号,导致 AS_PATH 为 65000 65000。这种 AS_PATH 长度差异确保在正常情况下优先选择 SD-WAN 设备 1。如果设备 1 故障或其 BGP 会话中断,则 BGP 路由会自动收敛到选择 SD-WAN 设备 2 作为次优路径,因为其路由继续被广告。此外,SD-WAN 设备维护与更广泛 SD-WAN 结构连接,并通过 BGP 传播从 AWS 学到的路由。

*图 1: 一个三 Region (Region) (US-WEST-2、US-EAST-2、US-EAST-1) AWS 网络基础设施,通过 SD-WAN 隧道和 Transit Gateway 互连连接到公司数据中心,并包含公私子网路由。*
为了进一步提升弹性并支持其灾难恢复能力,客户需要在第二个 Region (Region) 中添加一个备用 SD-WAN 设备。这可提供针对影响 US-East-2 Region (Region) 中现有 SD-WAN 设备的区域中断的保护,确保当本地连接受损或数据中心出现问题时保持持续连接。
## 挑战
该架构的主要挑战是确保 SD-WAN 设备在 AWS Region (Region) 之间实现无缝故障切换,而无需手动干预。Transit Gateway 本质上是区域性网络服务,因此 Region (Region) 间连接依赖于 Transit Gateway 互连,该互连使用静态路由配置。虽然这种方法适合可预测的流量模式,但它在处理动态故障切换场景时存在局限性。
在客户的环境中,SD-WAN 设备仅向 AWS 广告默认路由,因为 AWS Region (Region) 在 SD-WAN 拓扑中充当辐射节点,仅需要默认路由以连接本地。当客户决定在辅助 Region (Region) 中实施备用 SD-WAN 设备以实现区域冗余时,他们需要一个解决方案来动态路由来自 Region-A 工作负载的流量到 Region-B 中的 SD-WAN 设备。
为了满足这一需求,我们需要一种方法来在多个 AWS Region (Region) 之间启用动态路由传播,同时保留客户的现有网络架构和默认路由广告策略。该解决方案需要补充现有连接每个 Region (Region) 中应用 VPC (Virtual Private Cloud) 的 Transit Gateway 基础设施,并添加对 SD-WAN 设备之间动态故障切换场景的支持。
## 解决方案
由于关键工作负载在生产环境中运行,客户需要一个解决方案来启用动态 Region (Region) 故障切换,同时确保对运营的最小干扰。该设计需降低复杂性和端到端动态路由故障切换,使 AWS 原生服务成为此次转型的理想选择。
AWS Cloud WAN 证明是最佳解决方案,它提供了一个完全托管的广域网络服务,通过集中管理和自动化路由传播简化多 Region (Region) 连接。这使我们能够在保留现有 Transit Gateway 基础设施的同时,通过 BGP 基础的动态路由扩展客户的 AWS 网络。
我们的实施策略优先考虑对生产环境的最小干扰。我们设计了一个分阶段方法,将 AWS Cloud WAN 与现有网络架构集成,确保整个过渡过程中保持连续运营。该服务的原生功能提供了跨 AWS Region (Region) 的端到端路由感知,从而在不引入更多复杂性的情况下启用 SD-WAN 故障切换场景的动态路径选择。我们在 SD-WAN 设备上使用 AS_PATH 预处理来确定主备和备用节点,这些节点广告和接收来自本地和 AWS 的前缀。

*图 2: 过渡架构展示 AWS Cloud WAN 集成到现有三 Region (Region) 基础设施中,引入公司数据中心 (East 和 West) 之间的分段路由,同时维护 SD-WAN 连接。*
## 实施方法
我们的实施遵循精心规划的分阶段方法,以最小化对生产环境的影响,如上图所示。我们在 AWS Cloud WAN 设置完全运行并验证之前,保持现有 SD-WAN 通过 Transit Gateway 的连接。
阶段 1: AWS Cloud WAN 核心网络设置
- 在 [AWS Network Manager](https://docs.aws.amazon.com/managedservices/latest/userguide/networking-manager.html) 中配置 AWS Cloud WAN 核心网络
- 在每个参与的 AWS Region (Region) 中部署 Core Network Edges (CNEs)
- 定义并配置唯一的 BGP Autonomous System Numbers (ASNs) 范围,以防止与现有 Transit Gateway 的路由冲突
- 定义专用的 IP 范围用于 GRE 隧道,以启用与 SD-WAN 设备的 BGP 连接
阶段 2: 网络分段和路由管理
- [实施](https://docs.aws.amazon.com/network-manager/latest/cloudwan/cloudwan-policy-examples-two-segments-regions.html) 两个不同的 AWS Cloud WAN 网络分段:
- Egress Segment 用于通过 GRE 隧道的 SD-WAN 连接
- Transit Segment 用于 Transit Gateway 和 AWS Cloud WAN 之间的路由表连接
- 启用分段之间的自动路由共享,以简化路由管理
阶段 3: 将 AWS Cloud WAN 与 Transit Gateway 集成
- 为 AWS Cloud WAN 连接创建专用的 Transit Gateway 路由表
- 建立从 AWS Cloud WAN 的 Transit Segment 到 Transit Gateway 路由表的路由传播
- 验证 AWS Cloud WAN 和 Transit Gateway 之间的路由同步
阶段 4: SD-WAN 连接迁移
- 在 SD-WAN 设备上部署新的 Elastic Network Interfaces (ENIs) 以连接到 AWS Cloud WAN
- 从 SD-WAN 设备到 AWS Cloud WAN Egress Segment 建立 GRE 隧道
- 在过渡期间,我们通过现有 Transit Gateway 维护并行连接。Transit Gateway 继续优先处理通过 Connect attachment 接收的 SD-WAN 路由,而不是通过 AWS Cloud WAN peering attachment 接收的路由。这一行为基于 Transit Gateway [路由评估顺序](https://docs.aws.amazon.com/vpc/latest/tgw/how-transit-gateways-work.html#tgw-route-evaluation-overview)。
- 验证所有网络组件(如本地网络)之间的 BGP 路由传播
阶段 5: 生产切换和验证
- 执行分阶段迁移:
1. 禁用到 Transit Gateway 的 BGP 会话
2. 通过 AWS Cloud WAN 激活路由广告
3. 验证所有 Transit Gateway 路由表中的路由传播。 [Route Analyzer](https://docs.aws.amazon.com/network-manager/latest/tgwnm/route-analyzer.html) 可用于此验证工作
4. 移除遗留的 Transit Gateway Connect attachments 用于 SD-WAN
- 对跨两个 AWS Region (Region) 的三个 SD-WAN 设备执行全面故障切换测试

*图 3: 最终架构展示完全集成的 AWS Cloud WAN 部署,跨越三个 AWS Region (Region),采用优化分段 (Transit 和 Egress),通过 SD-WAN 隧道连接双公司数据中心,并简化 Transit Gateway 路由表连接。*
## 结果
实施 AWS Cloud WAN 使我们成功启用动态跨 Region (Region) 故障切换,从而消除了手动静态路由更新的需求,并提升了网络弹性。AWS Cloud WAN 的集中网络管理和 BGP 基础路由传播为客户提供了改进的容错能力、运营效率和简化网络管理。
新架构将 AWS Cloud WAN 与 Transit Gateway 以及跨多个 AWS Region (Region) 的三个 SD-WAN 设备集成,遵循主-备-备模式。SD-WAN 设备部署如下:
- 主和备 SD-WAN 设备位于 Region-A
- 备用 SD-WAN 设备部署在 Region-B
Transit Gateway 和路由表链接到 AWS Cloud WAN,从而从本地 (0.0.0.0/0) 启用动态路由学习。通过 BGP,活动 SD-WAN 节点成为默认出口点,实现无缝故障切换和 Region (Region) 冗余。这种动态路由方法消除了对静态路由的依赖,使网络能够自动适应 Region (Region) 可用性变化。
为了说明该架构的有效性,我们检查一个典型的故障切换场景:
当 Region-A 中的主 SD-WAN 设备处理 AWS 和本地网络之间的所有流量时,如果出现问题,以下故障切换序列发生:
1. 如果 Region-A 发生故障 (无论是 AZ (可用区) 故障还是设备故障),则主 SD-WAN 设备与 AWS Cloud WAN 之间的 BGP 会话终止。
2. AWS Cloud WAN 检测到 BGP 会话中断,并自动撤回与主设备相关联的路由。
3. 通过 BGP 路由选择,AWS Cloud WAN 立即将流量切换到 Region-A 中的备 SD-WAN 设备,该设备保持活动 BGP 会话。
4. 如果 Region-A 中的两个设备都不可用,AWS Cloud WAN 的动态路由功能会自动将流量重定向到 Region-B 中的备用 SD-WAN 设备,将其设置为活动路径。
5. 整个故障切换过程自动发生,无需手动干预,从而维护 AWS 和本地网络之间的连续连接。
6. 当 Region-A 恢复时,BGP 会重新收敛,AWS Cloud WAN 根据 BGP 路径选择标准将流量恢复到主 SD-WAN 设备。
展望未来,Cloud WAN 支持更多增强,包括无需完全依赖 Transit Gateway 互连的 Region (Region) 间通信。尽管 AWS Cloud WAN 在某些场景中可以替换 Transit Gateway,但我们在此环境中保留了 Transit Gateway 用于 Region (Region) 内 VPC-to-VPC 连接。AWS Cloud WAN 处理 Region (Region) 间和本地路由,通过 SD-WAN 解决方案优化流量控制。
该实施确保客户的网络未来-ready,能够在不受 Region (Region) 限制的情况下扩展,并处理复杂网络流量管理需求,同时保持运营清晰。AWS Cloud WAN 的基于意图的路由策略使客户能够通过面向业务的规则定义网络行为,而不是复杂的路由配置。这显著简化了网络管理,并提供了适应不断变化业务需求的灵活性。
## 总结
此次实施成功实现了客户的多 Region (Region) SD-WAN 冗余目标,并启用动态故障切换。使用 AWS Cloud WAN 在此设置中的关键益处包括:
- **无缝多 Region (Region) 故障切换**: 该解决方案确保自动故障切换跨 AWS Region (Region),无需手动干预,从而提升网络弹性。
- **简化网络管理**: AWS Cloud WAN 的网络分段功能为未来扩展和高效流量管理提供了增强灵活性。
- **迁移期间最小停机时间**: 从基于 Transit Gateway 的 SD-WAN 到基于 AWS Cloud WAN 的 SD-WAN 的过渡顺利进行,对现有服务的影响最小。
- **保留现有基础设施**: 我们成功集成了 AWS Cloud WAN,同时保留 Transit Gateway 用于 Region (Region) 内 VPC (Virtual Private Cloud) 连接。
在测试阶段,我们通过将流量故障切换到不同 Region (Region) 来验证冗余,确认路由行为符合预期且无流量丢失。客户对结果高度满意,因为该解决方案不仅解决了区域冗余的即时挑战,还为更灵活和可扩展的网络设计铺平了道路。
采用 AWS Cloud WAN 使客户的网络变得弹性强、可扩展,并为未来扩展做好准备。该架构未来-proof,能够处理增加的全球流量流和更高级的网络分段,随着客户业务的增长。要了解更多关于为您的组织实施 AWS Cloud WAN 的信息,请访问 AWS [Cloud WAN](https://aws.amazon.com/cloud-wan/) 文档。
## 作者介绍

### Hardik Shah
Hardik 是 AWS 的资深技术账户经理。他带来了在金融、旅行和零售行业的丰富经验,支持客户进行云之旅。他对技术和网络充满热情,喜欢解决复杂的技术挑战,并帮助客户优化 AWS 基础设施。工作之外,Hardik 喜欢与家人共度时光、旅行并探索文化和美食。

### Ankush Goyal
Ankush 是 AWS 企业支持中的企业支持主管,他帮助企业支持客户简化其在 AWS 上的云运营。他喜欢与客户合作,帮助他们设计、实施和支持云基础设施。他是一位以结果为导向的 IT 专业人士,拥有超过 20 年的经验。

### Ronnie Butler (Guest)
Ronnie Butler 是 Lemongrass Consulting 的资深 AWS 基础设施架构师,位于费城大都会区,拥有超过 15 年的 IT 经验和超过 6 年的 AWS 实践经验。作为经验丰富的云基础设施技术专家,他精通基础设施架构设计、云网络、咨询和服务。他热衷于帮助组织加速云采用之旅,通过利用 AWS 技术构建可扩展、安全和弹性的环境。持有信息系统学士学位和多项 AWS 认证。
<!-- AI_TASK_END: AI全文翻译 -->