[解决方案] 联合航空公司使用AWS实施企业级弹性程序

[解决方案] 联合航空公司使用AWS实施企业级弹性程序   # 解决方案分析 ## 解决方案概述 United Airlines 通过 AWS 实施的 Rapid Recovery 解决方案，旨在提升企业级弹性，确保关键应用的 100% 可用性。该方案针对公司 United Next 计划中迁移数百应用到 AWS 的需求，解决传统手动故障转移的效率低下和错误风险问题。核心内容包括自动化跨区域恢复、数据库故障转移和监控仪表板，提供灵活的业务连续性和灾难恢复（BCDR）保护。**Rapid Recovery** 适用于航空业等高可用性需求场景，背景是公司需降低恢复时间目标（RTO），以应对服务中断并提升客户体验。 ## 实施步骤 1. **构建平台**：EA 团队在 2023 年 4 月开始开发 Rapid Recovery，使用 **Amazon Application Recovery Controller (ARC)** 自动化应用流量切换和数据库故障转移。该过程涉及创建模板化的可观测性仪表板，并在不到六个月内由五人团队完成。 - 标准化应用 onboarding：提供灾难恢复设计指导、Well-Architected 审查和示例运行手册，帮助应用团队准备和测试故障转移。 2. **应用故障转移流程**：检测到服务中断后，通过自定义工作流界面启动故障转移，包括评估情况、决策和执行。 - 子步骤包括：使用 **Step Functions** 和 **Amazon EventBridge** 触发自动化通知和执行跟踪，确保过程可控。 3. **持续优化**：定期进行故障转移演练和监控，确保方案的有效性。应用团队在生产前必须完成全应用故障转移测试，以验证运行手册。 ## 方案客户价值 - **提升可靠性**：通过自动化故障转移，减少手动干预导致的停机时间，实现更低的 RTO，例如原文中提到的超过 1,000 次成功的跨区域故障转移和 400 次自动化数据库故障转移，这显著提高了业务连续性。 - **业务影响优化**：实现了 7% 的 MTTR 降低和 5% 的 NPS 提升，相比传统手动流程，该方案减少了错误风险，并为应用团队提供时间根因分析问题。 - **成本效益**：采用多区域部署策略，避免了成本翻倍风险，通过共享 **ARC** 集群和资源优化，实现了经济高效的弹性扩展，相比传统方案降低了运维复杂性。 ## 涉及的相关产品 - **Amazon Application Recovery Controller (ARC)**：用于自动化应用流量路由和资源准备检查，在方案中负责跨区域故障转移的核心功能。 - **Route 53**：处理自定义 DNS 端点切换，支持数据库故障转移，确保流量无缝转移。 - **Step Functions** 和 **AWS Lambda**：构建工作流和自动化任务，提供执行跟踪和通知。 - **Amazon EventBridge**：触发事件驱动架构，实现自动化通知和流程协调。 - **Amazon DocumentDB 和 Aurora**：作为数据库服务，支持托管故障转移和切换。 ## 技术评估 Rapid Recovery 方案的技术先进性体现在其自动化和灵活性上，使用 **ARC** 和事件驱动架构（如 **EventBridge**）实现了高效的跨区域恢复，显著提升了系统的可行性和可扩展性。该方案适用于多区域部署场景，优势包括减少人为错误和提供标准化监控仪表板，但可能面临管理复杂度上升的问题，尤其在自定义需求时需要额外调整。同时，成本优化举措（如集群共享）平衡了弹性与经济性，确保了实际部署的可行性，而潜在限制在于依赖人类决策，可能在高并发场景下增加响应延迟。总体而言，该方案体现了 AWS 在弹性领域的领先实践，符合行业趋势向自动化 BCDR 转型。   # 联合航空公司使用 AWS 实施企业级弹性程序 **原始链接:** [https://aws.amazon.com/blogs/networking-and-content-delivery/united-airlines-implement-enterprise-wide-resilience-program-with-aws/](https://aws.amazon.com/blogs/networking-and-content-delivery/united-airlines-implement-enterprise-wide-resilience-program-with-aws/) **发布时间:** 2025-05-09 **厂商:** AWS **类型:** BLOG --- *本文由 Jenny Zhou 合著，Jenny Zhou 是联合航空公司的首席企业架构师* 在本博客中，我们将探讨联合航空公司如何使用 Amazon Web Services (AWS) 实施企业级弹性程序。联合航空公司是一家总部位于伊利诺斯州芝加哥的主要美国航空公司，于 2021 年宣布了 [United Next 计划](https://united.mediaroom.com/2021-06-29-United-Adds-270-Boeing-and-Airbus-Aircraft-to-Fleet,-Largest-Order-in-Airlines-History-and-Biggest-by-a-Single-Carrier-in-a-Decade)。United Next 是该航空公司旨在提升其网络并增强客户体验的计划。随着公司将数百个应用迁移到 AWS 并现代化其关键数字系统，它必须确保这些业务关键应用实现 100% 的可用性。为了满足更低的 [恢复时间目标 (recovery time objective, RTO)](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/business-continuity-plan-bcp.html#recovery-objectives-rto-and-rpo)，应用团队开始设计多区域应用架构。联合航空公司团队识别出需要一个灵活、可重复且强大的平台，能够快速扩展。随着应用团队在 AWS 上进行现代化，联合航空公司的平台工程、数据库管理 (DBA) 和应用团队管理着复杂且耗时的故障切换运行手册和程序。他们经常依赖需要人工干预的手动故障切换过程。这些过程效率低下且容易出错，可能导致停机并中断关键业务服务。为了应对这些挑战，联合航空公司领导层指派企业架构 (EA) 团队构建一个更强大、可重复且自动化的解决方案。 ## **快速恢复解决方案** 2023 年 4 月，EA 团队开始推出快速恢复解决方案。快速恢复是一个中央平台，旨在为托管在 AWS 上的关键应用启用快速跨区域恢复能力。该平台自动化常见恢复步骤，例如 1. 使用 [Amazon Application Recovery Controller (ARC)](https://aws.amazon.com/application-recovery-controller/) 切换应用之间的区域，2. 自动化数据库故障切换任务，如将辅助 DB 集群提升为主 DB 集群，以及 3. 提供模板创建可观测性仪表板。快速恢复旨在提供比单一 AWS 区域的高可用性更强的 [业务连续性和灾难恢复 (business continuity and disaster recovery, BCDR)](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/business-continuity-plan-bcp.html) 保护。到目前为止，已有 70 多个在 AWS 上运行的业务关键服务使用此平台。 ![快速恢复解决方案的架构图。它展示了从授权管理员通过监控工具、中央弹性 AWS 账户和应用 AWS 账户的流程，包括应用和数据库故障切换、事件总线、步函数用于通知和故障切换，以及连接到各种团队和 AWS 服务如 DocumentDB 和 Aurora。该系统整合了混沌工程和恢复仪表板组件。](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/04/22/Picture1-10.png) *图 1: 快速恢复解决方案的架构* 一个由五人组成的小团队在不到六个月的时间内构建了快速恢复解决方案。上述架构具有以下关键特性： 1. **自动化恢复**：快速恢复使用 [Amazon Application Recovery Controller (ARC)](https://docs.aws.amazon.com/r53recovery/latest/dg/what-is-route53-recovery.html) 自动化常见恢复步骤，以切换应用流量路由，并触发 [托管](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/aurora-global-database-disaster-recovery.html) 数据库的故障切换和切换，包括使用 [Route 53](https://aws.amazon.com/route53/) 更改自定义 DNS 端点。通过使用 ARC，快速恢复获得 [洞察](https://docs.aws.amazon.com/r53recovery/latest/dg/recovery-readiness.html)，了解资源是否为故障切换区域做好准备，并触发多 AWS 区域的应用故障切换恢复。 2. **灵活使用场景**：该平台支持各种企业用例，包括： 1. 事件恢复 2. 主要应用版本发布或升级 3. 组件级混沌测试 4. 预定故障切换 5. 由警报触发的完全自动化故障切换（较少见但支持） 3. **易用工作流**：使用自定义工作流，授权团队成员可以通过简单的工作流界面启动故障切换。[见图 3 如下] 4. **全面监控**：该解决方案提供标准监控仪表板，与 AWS 服务如 [Step Functions](https://docs.aws.amazon.com/step-functions/latest/dg/welcome.html)、[AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/welcome.html) 和 [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 集成，用于详细执行跟踪。该仪表板为联合航空公司领导层提供企业级视图，并为单个应用所有者提供每个应用的视图。[见图 2 如下] 5. **自动化通知**：支持团队在故障切换过程中接收电子邮件通知，确保清晰的沟通和协调。 6. **可定制**：虽然提供标准化基础，但快速恢复允许应用团队根据特定需求自定义平台。 ![图 2: 企业级仪表板，包括故障切换历史](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/05/04/Figure2-1.png) ![图 2: 企业级仪表板，包括故障切换历史](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/05/04/Figure2-1-1.png) *图 2: 企业级仪表板，包括故障切换历史* 实施自动化使联合航空公司能够加速恢复过程，并在服务受损时降低 RTO。除了提供快速恢复外，EA 团队还通过提供灾难恢复设计详细指南、执行 [Well-Architected 审查](https://docs.aws.amazon.com/wellarchitected/latest/framework/the-review-process.html) 并提供入门工具包（文档和代码），这些工具包针对标准应用架构模式包含示例运行手册。这些运行手册概述了准备步骤、恢复程序和故障切换后测试要求。在应用进入生产环境前，应用团队必须执行完整的应用故障切换演练到另一个区域。这一强制步骤验证了故障切换运行手册，并增强了团队执行故障切换的能力。EA 团队领导与应用团队的会议，提供指导和培训，以确保该举措成功。 ## **恢复过程** 联合航空公司的大多数应用架构依赖人工干预来触发跨区域故障切换过程。区域之间的切换通常涉及 deliberate 的人为评估和决策。这种方法优先考虑基于可观测性信号的人为监督和控制，而不是自动化故障切换机制。这种人为介入方法确保在执行区域故障切换前仔细考虑潜在影响，在系统弹性与操作控制之间保持平衡。联合航空公司拥有一个定义明确的事件管理过程，用于处理关键服务中断。该过程包括事件管理团队、应用所有者和高级领导，以评估影响并定义后续步骤。故障切换过程 1. **事件检测**：可观测性工具检测到关键业务服务的受损；启动事件通话。 2. **评估**：在通话中，业务领导、应用所有者和操作团队评估情况和对业务的影响。他们还确定是否需要故障切换来快速缓解负面影响，从而为应用团队提供时间根因分析问题。 3. **决策**：团队可能选择故障切换特定组件，如服务层，以及 AWS 服务如数据库。 4. **执行**：授权的应用所有者使用自定义工作流启动和管理故障切换过程。 ![图 3: 提供给应用团队的工作流界面](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/04/22/Picture4-7.png) *图 3: 提供给应用团队的工作流界面* ## **大规模弹性** 弹性是一个持续过程。定期评估和演练灾难恢复计划是确保其有效性和在需要时构建实施信心的关键。为了了解其企业级弹性态势，联合航空公司决定将自动化和手动过程信号（包括 [故障模式监控](https://docs.aws.amazon.com/prescriptive-guidance/latest/resilience-analysis-framework/observability.html)）捕获并监控到名为应用可靠性仪表板 (ARD) 的操作仪表板中。ARD 是一个自定义应用，由专属软件开发团队维护。其目标是通过确保应用符合高质量和可靠性标准来提升客户满意度。 ARD 作为应用健康和可靠性的全面概述，提供一个统一界面，其中每个应用服务被分配一个弹性分数，目标通过标准设置为 80% 或更高。该可靠性分数基于联合航空公司特定指标计算，这些指标已由 Gartner（一家领先的研究和咨询公司）审查和认可。该评分模型基于定制的服务可靠性工程框架，专门针对联合航空公司的独特需求和要求。 ![图 4: 可靠性分数指标](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/04/22/Picture6-5.png) 图 4: 可靠性分数指标 ARD 服务于三个主要功能： 1. **测量**：它量化联合航空公司应用的可靠性、生产就绪性和整体健康。 2. **可见性**：ARD 提供对明确定义的关键指标的清晰洞察。 3. **进度跟踪**：它允许应用团队监控改进和变化。通过关注这些领域，ARD 使应用团队能够交付可靠（一致地按预期性能）、稳定（抵抗意外故障或停机）和高性能（高效且响应迅速）的服务。 ![应用可靠性就绪仪表板](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/05/04/Figure-5.png) 图 5: ARD 仪表板视图 ## **成本优化举措** 追求更短的恢复时间目标 (RTO) 和恢复点目标 (RPO) 通常会导致资源分配和操作复杂性的成本增加。因此，建议为特定工作负载选择在恢复能力和成本效益之间取得最佳平衡的 RTO 和 RPO 目标。当联合航空公司的应用团队最初探索多区域部署时，他们的主要担忧是应用成本可能翻倍。为了缓解这一担忧，选择最合适的 [灾难恢复 (DR) 策略](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-options-in-the-cloud.html) 对于每个应用至关重要，因为这在管理整体应用成本中发挥关键作用。为了进一步保持成本效益，联合航空公司实施了： 1. **资源优化**：联合航空公司通过 [共享](https://docs.aws.amazon.com/r53recovery/latest/dg/routing-control.failover-different-accounts.html) Amazon Application Recovery Controller 跨多个 AWS 账户，实现成本有效策略。跨 AWS 账户共享集群的一个关键优势是，您可以将运行单个集群的总成本分摊到多个团队。通过采用此策略，联合航空公司减少了所需的集群总数，从而更经济地实现应用弹性。 ![图 6: 使用 AWS RAM 共享 Application Recovery Controller 集群](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/05/04/Figure-6.png) 图 6: 使用 AWS RAM 共享 Application Recovery Controller 集群 2. **实时成本跟踪**：应用团队可以访问 [Harness Cloud Cost Management](https://www.harness.io/products/cloud-cost-management) 仪表板，用于监控成本。 3. **FinOps 黑客马拉松**：定期举办黑客马拉松式活动，以基准应用性能并识别新的成本节约机会。 4. **整合黑客马拉松输出**：将 FinOps 黑客马拉松的成本优化技术扩展并整合到可重复的部署管道中，由所有团队利用。 ## **总结** 联合航空公司通过在 AWS 上实施全面的企业级程序，提升了其操作弹性。这些举措增强了该航空公司关键应用的可靠性。到目前为止，该程序已取得令人印象深刻的结果，包括超过 1,000 次成功的跨区域应用故障切换和超过 400 次自动数据库故障切换。该航空公司还在 2024 年实现了 MTTR 降低 7%，这导致了 2024 年第三季度 NPS 较 2023 年增加 5%。这些成就突显了联合航空公司对强大、不间断服务交付的承诺，并说明了其基于云的弹性策略的有效性。 ## **进一步阅读** [AWS Well-Architected 框架 – 弹性支柱](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/welcome.html) [AWS 多区域基础白皮书](https://docs.aws.amazon.com/prescriptive-guidance/latest/aws-multi-region-fundamentals/introduction.html) [在 AWS 上的灾难恢复 (DR) 架构，架构博客系列](https://aws.amazon.com/blogs/architecture/tag/disaster-recovery-series/) [AWS 云弹性](https://aws.amazon.com/resilience/) [AWS 多区域能力](https://repost.aws/articles/AR02pJIdoARYKX6Rhkdra-Zg/aws-multi-region-capabilities) ## 关于作者 ![Hemal Jani 头像](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/05/08/Hemal-headshot.jpg) ### Hemal Jani Hemal Jani 是位于伊利诺斯州芝加哥的 Amazon Web Services (AWS) 解决方案架构师。他的重点领域是企业迁移和弹性。他拥有 20 多年技术领导经验，目前与旅行和酒店业客户合作。 ![Jenny Zhou 头像](https://d2908q01vomqb2.cloudfront.net/5b384ce32d8cdef02bc3a139d4cac0a22bb029e8/2025/05/08/Jenny-headshot.jpg) ### Jenny Zhou Jenny Zhou 是位于芝加哥的联合航空公司首席企业架构师。她拥有 20 多年航空业经验和 10 多年领导企业架构举措的经验。专长于应用架构、云迁移和弹性，以及企业治理。