[解决方案] Uber 的现代化边缘架构：提升网络性能与效率的新方法

[解决方案] Uber 的现代化边缘架构：提升网络性能与效率的新方法   # 解决方案分析 ## 解决方案概述该方案详细阐述了**Uber**如何与**Google Cloud**合作，对其全球边缘网络架构进行现代化改造。原有的架构基于在16个GCP区域的虚拟机上运行开源**Envoy代理**，旨在通过靠近用户来降低延迟。然而，这种设计导致了**次优的路由路径**，用户请求在到达Uber数据中心前需经过不必要的跨区域跳转，反而增加了延迟、运营复杂性和成本。为解决此问题，Uber采用了一种全新的简化架构。其核心是放弃分布式Envoy虚拟机集群，转而使用Google Cloud的**混合网络端点组 (Hybrid NEGs)**。新的流量路径是：用户请求首先到达Google的**全球外部应用负载均衡器**，经由**Cloud Armor**提供DDoS防护和**Cloud CDN**进行内容缓存，然后通过Google优化的全球骨干网络和**Cloud Interconnect**，直接路由到Uber的本地（On-premise）数据中心。该方案旨在为用户和Uber的混合云后端服务之间创建最直接、最低延迟的连接路径。 ## 实施步骤 1. **架构验证与性能建模**: Uber与Google工程师进行了为期10个月的紧密合作。Google Cloud团队利用其对自身负载均衡器架构的深刻理解，帮助Uber验证了新架构的可行性，即“更少的代理节点反而能提升性能”。此外，Google通过性能建模预测了生产规模下的性能表现，为Uber的决策提供了数据支持，并节省了大量的基准测试时间。 2. **核心组件替换**: 方案的核心是废弃了原先部署在全球16个区域的整个**Envoy代理VM集群**。 3. **流量路径重构**: 引入**混合NEG**作为关键组件，将其与**全球外部应用负载均衡器**和**Cloud Interconnect**集成。这使得来自Google边缘网络的流量能够直接、无缝地导向Uber的本地基础设施。 4. **全面迁移与退役**: 经过验证和测试，Uber将99%的边缘流量切换到新的架构上，并最终将原有的边缘VM集群完全退役，完成了架构的现代化转型。 ## 方案客户价值 - **显著降低成本**: 通过完全移除和退役整个边缘**Envoy VM集群**，Uber在基础设施和运营维护上实现了数百万美元的成本节约。 - **提升性能与用户体验**: 简化的流量路径消除了不必要的网络跳转，为Uber的全球用户带来了显著的延迟改善。 - p50延迟（中位数延迟）**降低了2.6%**。 - p99延迟（99百分位延迟）**降低了10%**，这意味着对网络条件较差或地理位置偏远的用户体验改善尤为明显。 - **简化运营**: 废弃庞大且复杂的VM集群，极大地降低了管理和编排的运营开销。团队可以采用更标准化的工具，从而提高了系统的整体可靠性。 - **奠定未来基础**: 新的高性能、低延迟网络架构为Uber未来部署和运行下一代**AI应用**提供了坚实的基础。 ## 涉及的相关产品 - **混合网络端点组 (Hybrid NEGs)**: 解决方案的核心。它允许Google的负载均衡器将流量直接转发到位于本地数据中心或其它云环境中的后端服务，是实现无缝混合云连接的关键。 - **全球外部应用负载均衡器 (Global External Application Load Balancer)**: 作为所有外部流量的统一入口，利用Google遍布全球的边缘网络接入点，为用户提供低延迟的接入。 - **Cloud Interconnect**: 提供企业级的私有、高带宽、低延迟的专用连接，将Uber的本地数据中心安全地接入Google Cloud网络。 - **Google Cloud Armor**: 在网络边缘提供DDoS攻击防护和Web应用防火墙（WAF）功能，保护Uber的服务免受恶意流量攻击。 - **Cloud CDN**: 利用Google的全球边缘缓存网络，加速静态内容的分发，进一步降低用户访问延迟。 ## 技术评估 - **技术先进性**: 该方案是云网络架构从**“自建代理层”向“云原生托管服务”**演进的典型范例。它用Google高度集成和优化的托管服务（负载均衡器 + Hybrid NEG）取代了复杂的自管理组件（Envoy VM集群），将网络路由和优化的专业工作成功地转移给了云服务商。 - **优势**: - **架构极简**: 通过移除整个中间代理层，大幅降低了系统架构的复杂性和潜在的故障点，提升了运维效率。 - **性能最大化**: 充分利用了Google庞大且高度优化的全球私有骨干网络进行长途流量传输。相比于在公共互联网上进行多跳路由，这种方式能提供更稳定、更低延迟的连接质量。 - **成本效益**: 采用“做减法”的思路，通过移除组件而非增加组件来优化系统，直接带来了显著的成本节约，展示了优秀的云成本优化实践。 - **潜在限制**: - **厂商依赖性**: 该解决方案深度依赖Google Cloud的特定网络产品组合（尤其是Hybrid NEG和全球负载均衡器），在一定程度上增加了对单一云厂商的依赖。 - **灵活性权衡**: 将网络控制权部分交给了云平台，虽然简化了运维，但也可能减少了在代理层进行极端定制化逻辑开发和控制的灵活性。   # Uber 的现代化边缘：网络性能与效率的新方法 **原始链接:** [https://cloud.google.com/blog/products/networking/ubers-modern-edge-a-paradigm-shift-in-network-performance-and-efficiency](https://cloud.google.com/blog/products/networking/ubers-modern-edge-a-paradigm-shift-in-network-performance-and-efficiency) **发布时间:** 2025-08-14 **厂商:** GCP **类型:** BLOG --- 网络 # Uber 的现代化边缘：网络性能与效率的新方法 2025 年 8 月 14 日 ![https://storage.googleapis.com/gweb-cloudblog-publish/images/Uber.max-2500x2500.jpg](https://storage.googleapis.com/gweb-cloudblog-publish/images/Uber.max-2500x2500.jpg) ##### Noah Goldman *Uber 主任软件工程师* ##### Gopinath Balakrishnan *Google Cloud 客户工程师* ##### 试用 Gemini 2.5 我们最智能的模型现已在 Vertex AI 上提供 [立即试用](https://console.cloud.google.com/vertex-ai/studio/freeform) 想象一下这个场景：你在里斯本叫了一辆 Uber，但你的请求在确认行程前，却绕道马德里、伦敦和弗吉尼亚州进行了一次“观光之旅”。在 Uber 和 Google Cloud 携手踏上更宏大的征程——重新设计全球边缘网络的工作方式之前，这曾是数百万用户的真实写照。 Uber 的业务遍及六大洲，连接着数百万的乘客和司机，同时处理超过 10 万次并发行程和每秒超过一百万次的 HTTP 请求。在如此巨大的规模下，每一毫秒都至关重要。当 Uber 现有的边缘架构出现次优路由路径时，该公司与 Google Cloud 合作，重新设计了其全球网络方案。最终成果是：延迟显著降低，并节省了数百万美元的成本。 ### **挑战：次优路由、低效架构与高昂的运维开销** Uber 此前在 Google Cloud 上的边缘架构，是在 16 个区域的虚拟机 (VM) 上运行开源的 Envoy 代理 (Envoy proxy) 实例。尽管其设计初衷是通过将服务部署得更靠近用户来降低延迟，但这种架构常常产生次优的路由路径，流量在到达 Uber 的数据中心前，会经过不同区域的多个不必要的跳数。额外的网络传输增加了延迟，降低了 Uber 用户所期望的体验。 ![https://storage.googleapis.com/gweb-cloudblog-publish/images/image4_o84ENek.max-1900x1900.png](https://storage.googleapis.com/gweb-cloudblog-publish/images/image4_o84ENek.max-1900x1900.png) 旧版 Uber 边缘 GCP 流量流这种设置带来了几个挑战： - **运维复杂性:** 管理和编排大规模的虚拟机 (VM) 机群十分繁琐，且偏离了 Uber 的内部标准。 - **延迟收益递减:** 与最初的设想相反，在全球众多区域运行 Envoy 并未持续改善所有用户的延迟。事实上，对某些用户而言，它反而引入了不必要的网络跳数。 - **高昂的运营成本:** 维护一个庞大的、全球分布的基础设施带来了巨大的成本。 ### **解决方案：使用混合 NEG 实现直接路由** 目标非常明确：为用户创建一条直达 Uber 跨本地 (on-premises) 和多云环境的后端服务的最直接路径。解决方案是放弃分布式的 Envoy VM，转而使用 Google Cloud 的混合网络端点组 (Hybrid Network Endpoint Groups, NEG)。 ![https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Z24QX7X.max-1100x1100.png](https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Z24QX7X.max-1100x1100.png) 简化/现代化的 Uber 边缘 GCP 流量流这个新架构由 Uber 和 Google 工程师历时 10 个月合作开发而成。它将流量从 Google 的全球外部应用负载均衡器 (Global External Application Load Balancer)——其前端由用于 DDoS 防护 (DDoS protection) 的 Google Cloud Armor 和用于缓存的 Cloud CDN 提供支持——通过 Cloud Interconnect 直接路由到 Uber 的本地基础设施。迁移到基于混合 NEG 的负载均衡器后，效果立竿见影。通过移除所有边缘 VM，流量路径变得更加高效，使得 Google 的全球网络能够通过优化的通道处理长途传输。这一转变使得第 50 百分位 (p50) 的延迟降低了 2.6%，第 99 百分位 (p99) 的延迟降低了 10%，直接提升了服务的响应速度。 ### **成果：影响深远的改进** 此次迁移在三个关键领域带来了显著的提升。在验证了设计并将 99% 的边缘流量切换过去之后，该项目取得了以下成果： - **显著的成本降低:** 移除整个边缘 Envoy VM 机群带来了巨大的成本节约。 - **性能和用户体验提升:** 简化的流量路径为 Uber 移动应用用户带来了 **p50 延迟降低 2.6% 和 p99 延迟降低 10%** 的性能提升。 - **简化运维:** 弃用边缘 VM 降低了运维开销，并通过更标准化的工具提高了可靠性。 > “在 Uber，每一毫秒都定义着数百万用户的体验。通过与 Google Cloud 合作，利用混合 NEG 重构我们的全球边缘，我们为服务创建了一条更直接、更低延迟的路径。这不仅提升了当前的用户体验，也为我们下一代 AI 应用提供了必要的高性能基础，同时还为我们的工程团队显著降低了运维开销。” - Harry Liu, Uber 网络总监。 ### **给企业团队的关键启示** Uber 的边缘架构转型展示了专注的技术协作所能取得的成就。通过用一个基于 Google 全球网络和混合 NEG 的简化架构取代分布式的 Envoy VM 机群，Uber 在性能、成本和可靠性方面都取得了显著的改进。通过 Uber 和 Google 工程师的紧密合作，这次迁移在不到一年的时间内成功完成。关键的成功因素包括： - **架构验证:** Google 对其负载均衡器架构的深刻见解，帮助验证了减少代理位置能够提升性能并降低运维开销。 - **性能建模:** Google 工程师根据 Uber 的初步测试结果，对生产规模下的效果进行了建模，节省了基准测试时间，并为继续推进项目提供了信心。 - **简化设计:** 混合 NEG 免除了在 Google 边缘部署 Envoy 代理 VM 的需求。发布于 - [网络](https://cloud.google.com/blog/products/networking) - [数据分析](https://cloud.google.com/blog/products/data-analytics) - [客户](https://cloud.google.com/blog/topics/customers)