<!-- AI_TASK_START: AI标题翻译 -->
[新产品/新功能] 开启未来:Azure 网络更新中的安全、可靠性和高可用性
<!-- AI_TASK_END: AI标题翻译 -->
<!-- AI_TASK_START: AI竞争分析 -->
### Azure 网络进化论:为 AI 时代构建安全、可靠与可扩展的云基础设施
在人工智能 (AI) 以前所未有的力量重塑各行各业的今天,从金融、零售到医疗、生物技术,无一不被其变革浪潮所席卷。应用的云化进程不断加速,使得云平台成为连接用户、应用、AI 模型及海量数据与算力的核心枢纽。微软 Azure 网络服务正是在这一时代背景下,为企业数字化转型提供独特的赋能。本篇笔记将深度解析 Azure 近期发布的一系列网络增强功能,这些功能围绕**安全性、可靠性、可扩展性及工作负载生产力**四大核心支柱,旨在为云端运行的关键任务及 AI 应用,构建一个坚不可摧且高效卓越的网络基石。
---
### **大纲索引 (Table of Contents)**
1. 零信任基石:网络安全边界 (Network Security Perimeter) 的实践
2. 默认安全:Bastion 开发者版本的普惠之道
3. 硬件加速加密:虚拟网络加密 (Virtual Network Encryption) 的性能与安全平衡
4. 域名守护:Azure DNS 对 DNSSEC 的原生支持
5. 极致高可用:ExpressRoute Metro SKU 与最大可靠性设计
6. 简化运维:Azure 负载均衡器的可管理性飞跃
7. 精细化流量控制:负载均衡器的管理员状态 (Admin State) 功能
8. 打破边界:负载均衡器的跨订阅 (Cross-Subscription) 支持
9. 规模化寻址:虚拟网络迈向百万级 IP 地址时代
10. 告别混乱:虚拟网络 IP 地址管理器 (IPAM) 的集中管控
11. 预见未来:虚拟网络验证器 (Virtual Network Verifier) 的前瞻性诊断
12. 智能运维新范式:网络 Copilot (Network Copilot) 登场
13. 容器网络进化:高级容器网络服务 (Advanced Container Networking Services)
14. 基于 Cilium 的 eBPF 技术:重塑 Kubernetes 网络性能与安全
15. 深度可观测性:Retina 与 Hubble 带来的容器网络洞察
---
### **第一章:零信任基石——网络安全边界的实践**
随着企业广泛采用 Azure 的平台即服务 (Platform as a Service, PaaS) 产品承载核心业务,如何确保这些服务之间交互的安全性变得至关重要。传统的安全模型往往依赖于授予过于宽泛的服务访问权限,这与“最小权限”的零信任原则背道而驰。攻击者可能利用一个被攻破的服务实例,横向移动到其他拥有权限的 PaaS 资源,造成数据泄露。
**网络安全边界 (Network Security Perimeter)** 正是为应对这一挑战而生。它不再依赖于模糊的服务级授权,而是允许企业围绕一组指定的 PaaS 实例(如 Azure Storage, Azure SQL 等)创建一个逻辑上的、可信的隔离边界。在这个边界内部的资源可以自由通信,而任何跨越边界的访问——无论是从外部进入,还是从内部访问外部资源——都必须经过严格的策略审查。通过精细的访问控制列表 (Access Control List, ACL) 规则和集中的日志记录,企业能够将通信严格限制在授权的资源范围内,有效阻断数据外泄路径,从而在 PaaS 环境中真正落地零信任安全原则。
#### **关键技术与实现**
* **逻辑边界定义**:网络安全边界是一个逻辑构造,不依赖于特定的虚拟网络 (VNet) 拓扑。管理员可以将分布在不同区域、不同订阅下的 PaaS 资源纳入同一个安全边界进行统一管理。
* **出入双向控制**:它不仅控制外部对边界内资源的访问(入口流量),也严格管理边界内资源对外部的访问(出口流量),这是防止数据外泄的关键。
* **集中化策略管理**:所有访问规则都在网络安全边界资源上集中配置和审计,极大地简化了对复杂 PaaS 环境的安全治理。
#### **解读:从“护城河”到“微隔离”的演进**
网络安全边界的理念,标志着云网络安全从传统的“边界防火墙”(护城河模型)向更现代的“微隔离” (Micro-segmentation) 思想的重大转变。在过去,我们主要保护虚拟网络的边界,一旦攻击者进入内网,内部服务的相互访问往往畅通无阻。网络安全边界将这种隔离能力下沉到了 PaaS 资源层面,为每一个关键的应用集群创建了独立的“安全舱”,即使某个舱室被攻破,也能有效遏制威胁的蔓延。这是对零信任“永不信任,始终验证”原则最直接的体现。
### **第二章:默认安全——Bastion 开发者版本的普惠之道**
安全地访问虚拟机 (Virtual Machine, VM) 的远程桌面 (RDP) 或安全外壳 (SSH) 端口,是云上运维的基本需求。直接将这些端口暴露于公网是极其危险的,会使其成为暴力破解和漏洞扫描的主要目标。Azure Bastion 通过在虚拟网络中提供一个完全托管的堡垒机服务来解决此问题,所有访问都通过 Bastion 主机进行代理,从而无需为 VM 分配公共 IP。然而,标准版的 Bastion 存在一定的成本,对于开发测试或仅需访问单个 VM 的场景来说,可能显得不够经济。
为了践行“默认安全 (Secure by Default)”的承诺,Azure 推出了 **Bastion 开发者 SKU (Bastion Developer SKU)** 的正式版。这是一个**零成本**的解决方案,它利用微软内部管理的共享资源池,允许用户通过 Azure 门户一键安全连接到单个虚拟机,而无需进行复杂的配置或扩展。此版本非常适合开发者、测试人员或任何寻求对单个 VM 进行快速、安全连接而又不想产生额外费用的用户。
#### **核心优势与适用场景**
* **零成本**:最大的吸引力在于免费,降低了安全访问的门槛。
* **一键连接**:在 Azure 门户的 VM 页面即可直接发起 RDP/SSH 连接,体验无缝。
* **无需公网 IP**:VM 无需暴露在互联网上,从根本上杜绝了来自公网的直接攻击。
* **适用场景**:开发者进行日常调试、管理员进行临时维护、测试环境的快速访问等。
#### **解读:让安全成为一种习惯,而非一种选择**
提供免费的 Bastion 开发者版本,是微软在安全理念上的一次重要布局。它传达了一个明确的信号:基础的安全性不应该成为一种需要权衡成本的“高级功能”。通过将安全访问的门槛降至零,Azure 鼓励所有用户——无论其预算规模大小——都能养成使用堡垒机进行安全连接的良好习惯。这种“普惠安全”的策略,将从根本上提升整个 Azure 生态的平均安全水位,减少因配置不当导致的安全事件。
### **第三章:硬件加速加密——虚拟网络加密的性能与安全平衡**
在金融、医疗、政府等数据高度敏感的行业,保障数据在传输过程中的机密性是合规性的基本要求。虽然可以通过软件方式(如 IPsec)在虚拟机之间加密流量,但这通常会消耗大量的 CPU 资源,导致应用性能下降,形成“安全”与“性能”之间的两难选择。
Azure 的 **虚拟网络加密 (Virtual Network Encryption)** 功能(现已在所有公共区域正式发布)优雅地解决了这个难题。它通过利用宿主机上的 **现场可编程门阵列 (Field Programmable Gate Arrays, FPGAs)** 硬件来处理虚拟机之间的流量加密和解密。通过将加密任务从 CPU 卸载到专用的 FPGA 硬件,Azure 实现了顶级的安全性与高速处理能力的完美结合,确保加密数据在网络中顺畅流动,同时对系统整体性能的影响降至最低。
#### **技术亮点与价值**
* **硬件卸载**:核心创新在于使用 FPGA 进行加密运算,释放了宝贵的 CPU 资源,使其可以完全用于运行业务应用。
* **无感体验**:对于虚拟机内的应用来说,加密过程是完全透明的,无需修改任何代码或配置。
* **性能保障**:即使在加密开启的情况下,也能维持极高的网络吞吐量和低延迟,消除了性能顾虑。
#### **解读:底层硬件创新是云厂商的核心竞争力**
虚拟网络加密功能是 Azure 硬件层面创新实力的一个缩影。它揭示了一个事实:顶级的云服务竞争,早已超越了单纯的软件功能堆叠,而是深入到数据中心基础设施的每一个层面,包括自研芯片和硬件加速。通过 FPGA 这类可编程硬件,Azure 能够灵活地为网络、存储、AI 等关键负载加速,构建出软件层面难以企及的性能和效率优势。这不仅为客户提供了更优的产品体验,也构筑了强大的技术护城河。
### **第四章:域名守护——Azure DNS 对 DNSSEC 的原生支持**
域名系统 (Domain Name System, DNS) 是互联网的“电话簿”,但其原始设计缺乏安全机制,容易遭受缓存投毒 (Cache Poisoning) 和中间人攻击 (Man-in-the-Middle Attack),导致用户被重定向到恶意网站。**DNSSEC (DNS Security Extensions)** 通过数字签名技术,确保 DNS 响应的真实性和完整性,从而抵御这类攻击。
Azure 宣布在 **Azure DNS 中提供对 DNSSEC 的公开预览支持**。这意味着客户现在可以通过 Azure 门户或 API,简单地勾选一个选项,就能为其托管在 Azure DNS 上的域启用 DNSSEC。此功能的推出,极大地提升了客户应用的安全性和可信度。更重要的是,许多国家和地区的合规性法规已强制要求使用 DNSSEC,因此这项更新也成为企业满足合规需求的必要条件。
#### **为何 DNSSEC 至关重要**
* **验证来源**:确保你收到的 DNS 记录确实来自权威的 DNS 服务器,而未被篡改。
* **保证完整性**:确保 DNS 记录在传输过程中没有被修改。
* **防范欺骗**:有效防止 DNS 缓存投毒等常见攻击手段。
#### **解读:将复杂安全协议产品化、简单化**
DNSSEC 协议本身配置复杂,涉及密钥管理、签名、轮换等一系列繁琐操作,这在过去是许多组织部署它的主要障碍。Azure DNS 的此次更新,将复杂的 DNSSEC 实现细节完全封装起来,以一个“一键启用”的简单界面呈现给用户。这种将复杂技术“产品化”和“简单化”的能力,是公有云厂商的核心价值之一。它让高级别的安全防护不再是少数专家的专利,而是成为所有企业都能轻松享有的基础能力。
### **第五章:极致高可用——ExpressRoute Metro SKU 与最大可靠性设计**
对于将关键任务应用部署在云上的企业而言,连接本地数据中心与云端的专线必须具备极高的可靠性。Azure ExpressRoute 提供了私有、高吞吐量的专线连接,但单点的物理线路或设备故障仍可能导致连接中断。
为了提供更强的弹性,Azure 正式发布了 **ExpressRoute Metro SKU**。此 SKU 在同一个城市(都市圈)内的多个不同边缘站点 (Edge Site) 之间提供冗余连接。这意味着,即使其中一个边缘站点因故中断(如断电、设备故障),流量也能自动切换到该城市的另一个站点,从而保障业务的连续性。
对于需要最高级别故障保护的场景,Azure 提出了 **最大可靠性 (Maximum Resiliency)** 的设计模式。该模式通过 ExpressRoute 为每个边缘站点都提供双重冗余路径,最终有效地在本地与 Azure 之间建立**四条独立的物理路径**。这种架构对于金融、医疗、电子商务等任何一秒钟的中断都可能造成巨大损失的行业来说,是保障业务连续性的终极解决方案。
#### **可靠性层级对比**
| 可靠性级别 | 架构描述 | 适用场景 |
| :--- | :--- | :--- |
| **标准可靠性** | 单一地点,双重连接 | 具备基本冗余需求的应用 |
| **高可靠性 (Metro SKU)** | 同城多地,双重连接 | 防范单站点故障,关键业务应用 |
| **最大可靠性** | 跨地域/同城多地,四重连接 | 金融交易、生命支持系统等不容中断的业务 |
#### **解读:将物理世界的多样性融入云网络设计**
ExpressRoute 的可靠性增强,体现了 Azure 对网络设计中物理现实的深刻理解。云的可靠性不仅在于虚拟资源的冗余,更在于其底层物理基础设施(如边缘站点、光纤线路)的冗余和地域分散。Metro SKU 和最大可靠性架构,正是将这种物理世界的多样性融入到了产品设计中,为客户提供了可以量化的、不同等级的可靠性选择。此外,新增的“引导式配置体验”通过动态拓扑图和建议,降低了客户设计和部署复杂高可用网络的门槛。
### **第六章:简化运维——Azure 负载均衡器的可管理性飞跃**
Azure 负载均衡器 (Azure Load Balancer) 是 Azure 网络产品组合中的基础服务,负责在后端虚拟机之间分发流量。随着客户部署规模的扩大,对其可管理性的要求也越来越高。近期发布的两项新功能——管理员状态和跨订阅支持——极大地提升了其灵活性和运维效率。
### **第七章:精细化流量控制——负载均衡器的管理员状态功能**
在传统的负载均衡管理中,一个后端实例是否接收流量,完全由其健康探测 (Health Probe) 的结果决定。但在某些运维场景下,我们需要手动将一个健康的实例临时移出流量轮转,例如进行版本更新、打安全补丁或进行应用调试。过去,实现这一目标通常需要复杂的变通方法,如修改网络安全组 (Network Security Group, NSG) 规则来阻止探测流量,操作繁琐且容易出错。
**管理员状态 (Admin State)** 功能为此提供了完美的解决方案。它允许管理员通过一次简单的 API 调用或在门户中单击一下,直接将某个后端实例的状态标记为“不健康”(Down)。一旦标记,负载均衡器将立即停止向该实例发送新的流量,而已有的连接会正常处理完毕。维护完成后,同样只需一键即可将其恢复为“健康”(Up) 状态,重新接收流量。这项功能现已在所有公共云、中国云和政府云区域正式发布。
#### **运维效率的提升**
* **操作简化**:从复杂的 NSG 规则修改,简化为一键式状态切换。
* **意图明确**:清晰地表达了“因维护而下线”的运维意图,而非模拟一个“健康探测失败”的假象。
* **可见性增强**:结合新的“负载均衡器健康状态”视图,管理员可以清晰地看到每个后端实例的健康状况,以及是由平台(健康探测)还是由用户(管理员状态)触发的状态变更。
#### **解读:将运维意图直接转化为产品功能**
“管理员状态”是一个典型的“将运维人员的隐性需求显性化”的功能。它深刻理解了运维工作中的实际痛点——需要在不改变基础架构的情况下,灵活、安全地控制流量。通过提供一个直接表达“上线/下线”意图的控制开关,Azure 将复杂的运维流程简化为了一个简单的产品功能,这正是优秀云平台设计的体现。
### **第八章:打破边界——负载均衡器的跨订阅支持**
在大型企业中,Azure 资源通常会根据部门、项目或环境(开发、测试、生产)分散在多个不同的订阅 (Subscription) 中。这种组织结构在管理上是必要的,但给技术实现带来了挑战。例如,一个应用的前端公共 IP、负载均衡器本身和后端的虚拟机,可能分属不同的订阅,由不同的团队管理。过去,Azure 负载均衡器要求所有这些组件必须在同一个订阅内,这极大地限制了架构的灵活性。
为了解决这个问题,Azure 负载均衡器正式宣布**支持跨订阅使用**。现在,负载均衡器可以引用位于不同订阅中的前端公共 IP 地址和后端实例。这一更新使得资源组织更加灵活,能够更好地匹配企业的管理模型,并有效避免了为了满足技术限制而进行的资源重复创建和不必要的迁移。
#### **架构的解放**
* **集中化管理**:网络团队可以在一个专门的订阅中管理核心网络资源(如公共 IP 和负载均衡器),而应用团队则在各自的订阅中管理后端虚拟机。
* **资源共享**:一个昂贵或稀缺的公共 IP 地址可以被不同订阅中的多个负载均衡器共享(通过不同的前端配置),提高了资源利用率。
* **灵活性**:应用拓扑的构建不再受限于订阅的边界,架构设计可以完全围绕业务逻辑和组织结构展开。
#### **解读:适应企业云采用的真实复杂性**
跨订阅支持看似是一个小功能,但它反映了 Azure 对大型企业客户云采用成熟度不断提高的深刻洞察。初创公司可能在一个订阅中搞定所有事情,但对于拥有成百上千个订阅的大型企业来说,跨订阅的资源协同是刚需。此功能的推出,表明 Azure 正在从提供“基础构建块”向提供“适应复杂企业环境的解决方案”转变,这是其赢得企业级市场的关键一步。
### **第九章:规模化寻址——虚拟网络迈向百万级 IP 地址时代**
一个标准的 Azure 虚拟网络 (VNet) 目前最多支持约 65,000 个可路由 IP 地址。这个数量对于绝大多数应用场景来说是绰绰有余的。然而,对于一些超大规模的云原生应用,尤其是那些在 Azure Kubernetes Service (AKS) 中运行、需要频繁扩缩容并为每个 Pod 分配独立 IP 的应用,65,000 个 IP 的上限可能会成为增长的瓶颈。
为了满足这些极端规模的需求,Azure 宣布推出一项预览功能,通过在网络接口卡 (Network Interface Card, NIC) 上附加 **IP 前缀 (IP Prefix on NIC)**,将单个虚拟网络支持的**可路由 IP 地址数量提升至 100 万**。传统上,一个 NIC 只能分配一个主 IP 地址(`/32`)。而这项新功能允许在 NIC 上额外附加一个 `/28` 的前缀,这相当于一次性为该 NIC 增加了 16 个可用 IP。这种批量的地址分配方式,极大地提高了地址空间的利用效率和可扩展性。
#### **关键影响**
* **规模提升**:将 VNet 的 IP 容量提升了超过 15 倍,为超大规模应用(如大型电商、社交媒体、物联网平台)的部署扫清了障碍。
* **效率提高**:对于需要大量 IP 的虚拟机或容器,一次性分配一个前缀比逐个分配单个 IP 更高效,简化了地址管理。
#### **解读:为云原生的终极规模而设计**
支持百万级 IP 地址的 VNet,是 Azure 对未来云原生应用发展趋势的一次前瞻性投资。随着容器和微服务架构的普及,IP 地址正在成为一种像 CPU 和内存一样需要被动态、大规模分配和回收的资源。此项更新确保了 Azure 的网络底层能够支撑起未来可能出现的、规模远超我们当前想象的云原生应用,展现了其作为超大规模云 (Hyperscale Cloud) 提供商的深厚技术储备。
### **第十章:告别混乱——虚拟网络 IP 地址管理器的集中管控**
随着云上部署规模的扩大,IP 地址的管理成为了一个日益严峻的挑战。缺乏统一规划可能导致 IP 地址段重叠、地址浪费、以及在混合云环境中与本地网络冲突等问题。传统上,企业需要依赖第三方工具或复杂的电子表格来手动追踪 IP 地址分配,效率低下且容易出错。
为了解决这一痛点,Azure 在 Virtual Network Manager 中推出了 **IP 地址管理器 (IP Address Management, IPAM)** 解决方案的公开预览版。IPAM 提供了一个集中的平台,让组织能够:
* **集中规划**:创建和管理整个组织的 IP 地址池,支持 IPv4 和 IPv6。
* **自动分配**:在创建新的虚拟网络时,可以从 IPAM 池中自动分配一个不重叠的 CIDR 地址块,确保唯一性并减少浪费。
* **避免重叠**:IPAM 能够跟踪 Azure 内外的 IP 分配情况(通过手动录入),从而有效防止与本地数据中心或其他云环境的地址冲突。
* **监控使用情况**:提供对 IP 地址块分配和使用情况的清晰可见性,帮助管理员进行容量规划和资源回收。
#### **IPAM 的核心价值**
* **单一事实来源**:为企业所有 IP 地址空间提供一个统一、可信的管理视图。
* **自动化与防错**:将手动的、易错的地址分配过程自动化,提升效率和准确性。
* **混合云就绪**:能够管理和跟踪本地网络的 IP 使用情况,是构建无缝混合云环境的关键。
#### **解读:网络治理从“可选”走向“必需”**
IPAM 的推出,标志着 Azure 网络管理正在从提供基础的连接能力,向提供全面的网络治理 (Governance) 能力演进。在企业云旅程的初期,大家更关心的是如何“连得上”。而当云上资产达到一定规模后,如何“管得好”就成了核心矛盾。IPAM 正是解决“管得好”这个问题的关键工具,它将 IP 地址这一基础资源纳入了集中化、自动化、策略化的治理体系中,是企业云走向成熟和规范化的重要标志。
### **第十一章:预见未来——虚拟网络验证器的前瞻性诊断**
在复杂的网络环境中,排查连接性问题是一项极具挑战性的任务。即使是最微小的配置变更,如修改一条 NSG 规则或路由表,都可能引发意想不到的连接中断。传统的排障方式通常是“事后”的,即在问题发生后,通过 `ping`、`traceroute` 或网络观察家 (Network Watcher) 等工具进行诊断。
Azure Virtual Network Manager 中的 **虚拟网络验证器 (Virtual Network Verifier)** 系统(预览版)提供了一种全新的、“事前”的排障范式。它通过对网络配置和控制平面进行**静态分析**,来验证数据包的流动路径。这意味着,管理员可以在**部署配置变更之前**,就模拟和验证这次变更对网络连通性的影响。例如,你可以提问:“在我应用这条新的 NSG 规则后,VM-A 到 VM-B 的 443 端口是否还能通?” 验证器会分析所有相关的路由表、NSG、防火墙策略等,并给出肯定的或否定的答案,以及详细的路径分析。
#### **“配置即代码”时代的必备工具**
* **预防性排障**:在变更造成生产环境中断前,预先发现和修复潜在的连接问题。
* **降低变更风险**:为网络变更提供强大的信心,尤其是在实施自动化部署管道 (CI/CD) 时,可以将其作为一个自动化的验证步骤。
* **加速问题定位**:即使问题已经发生,验证器也能快速分析配置, pinpoint 问题根源,而无需进行实时抓包。
#### **解读:从“反应式运维”到“预测式运维”的转变**
虚拟网络验证器是网络运维向 AIOps (AI for IT Operations) 演进的一个重要体现。它将运维模式从被动的“救火”(反应式)推向了主动的“防火”(预测式)。通过将复杂的网络拓扑和策略规则模型化,并提供一个可以“沙箱推演”变更后果的环境,Azure 极大地降低了在规模化云环境中进行网络管理的复杂性和风险。这对于追求高稳定性和敏捷性的 DevOps 团队来说,是一个革命性的工具。
### **第十二章:智能运维新范式——网络 Copilot 登场**
尽管 Azure 提供了丰富的文档和诊断工具,但用户在面对复杂的网络问题时,仍然可能感到不知所措。如何选择最合适的产品?如何解读密密麻麻的监控指标?如何快速定位一个棘手的连接问题?
为了解决这些挑战,Azure 宣布正在为 **Azure Copilot** 添加网络技能,即 **网络 Copilot (Networking Copilot)**。它不仅仅是一个简单的问答机器人,更像一个内嵌在 Azure 平台的个人网络顾问。网络 Copilot 能够理解深度的网络问题,并无缝、高效地帮助客户排查连接故障。它能提供高度情境化、可操作的、甚至可视化的洞察,其能力远超翻阅静态文档。
#### **网络 Copilot 的核心能力**
* **产品选择顾问**:用户可以用自然语言描述需求(例如:“我需要一个能处理 Web 流量、具备 WAF 功能的全局负载均衡器”),Copilot 会推荐最合适的产品(如 Azure Front Door 或 Application Gateway)并解释原因。
* **深度指标解读**:用户可以询问:“为什么我的 ExpressRoute 线路延迟突然增加了?” Copilot 会自动分析相关指标,并给出可能的原因和建议。
* **智能故障排查**:当出现连接问题时,Copilot 可以引导用户进行一步步的排查,甚至自动运行诊断,最终定位问题根源。
* **资源诊断**:提供对单个网络资源(如负载均衡器、防火墙)的健康状况和配置的深度诊断。
#### **解读:AI for Ops,让每个工程师都拥有专家能力**
网络 Copilot 是 AI 技术赋能云运维(AIOps)的典范。它旨在通过大型语言模型 (LLM) 的强大推理和整合能力,将 Azure 网络专家的知识和经验“产品化”,让每一位工程师都能享受到专家级的支持。这不仅能极大地缩短故障排查时间 (MTTR),降低运维成本,更重要的是,它降低了深度使用和管理复杂云网络的门槛,让开发者能更专注于业务创新,而非基础设施的疑难杂症。
### **第十三章:容器网络进化——高级容器网络服务**
在云原生的世界里,基于 Kubernetes 的微服务架构对网络提出了前所未有的要求:高性能、强安全、无缝扩展和深度可观测性。Azure 一直提供如 Azure CNI 这样的基础网络能力,但在更高级的功能上,用户往往需要自行组合和配置开源组件。
为了提供一站式的解决方案,Azure 正式发布了**高级容器网络服务 (Advanced Container Networking Services)**。这项服务旨在提供对网络流量和应用性能的深度洞察,帮助用户自信地管理和扩展其 Kubernetes 基础设施。它构建于一个强大的技术组合之上,核心是 **Azure CNI Powered by Cilium**。
### **第十四章:基于 Cilium 的 eBPF 技术——重塑 Kubernetes 网络性能与安全**
传统的 Kubernetes 网络实现(如基于 iptables)在超大规模集群中会遇到性能瓶颈和扩展性问题。**Cilium** 是一个革命性的开源项目,它利用 Linux 内核中的 **eBPF (extended Berkeley Packet Filter)** 技术,以极高的性能实现网络连接、监控和安全。
**Azure CNI Powered by Cilium** 将 Azure CNI 强大的控制平面(负责与 Azure VNet 集成和 IP 地址管理)与 Cilium 高性能的数据平面相结合。这种组合带来了多项优势:
* **极致性能**:eBPF 直接在内核中处理网络数据包,绕过了传统的、较慢的 iptables 链路,显著降低了网络延迟,提升了吞吐量。
* **高度可扩展**:eBPF 的实现方式比 iptables 更具扩展性,能够支持更大规模的节点、Pod 和服务。
* **精细化网络策略**:Cilium 提供了比标准 Kubernetes Network Policy 更丰富、更强大的网络策略能力,例如基于 L7(如 HTTP 方法、URL 路径)的访问控制和基于 FQDN 的出口流量过滤。
#### **解读:拥抱 eBPF,抢占云原生技术的制高点**
eBPF 被广泛认为是继容器之后,云原生领域最具颠覆性的技术之一。它赋予了开发者在不修改内核代码的情况下,安全、高效地向内核“注入”自定义程序的能力,从而在网络、安全、可观测性等领域开启了无限可能。Azure 将 Cilium 和 eBPF 深度集成到其核心的 AKS 服务中,是一次重要的战略抉择。这表明 Azure 不仅在跟随云原生社区的步伐,更在积极拥抱和引领最前沿的技术方向,力图为企业用户提供性能最优、功能最强的 Kubernetes 平台。
### **第十五章:深度可观测性——Retina 与 Hubble 带来的容器网络洞察**
排查微服务之间的网络问题是出了名的困难,因为流量在复杂的 Pod 网络中穿梭,传统的工具难以提供清晰的视图。高级容器网络服务通过集成另外两个强大的开源项目——**Retina** 和 **Hubble**——来解决这一难题。
* **Hubble**:作为 Cilium 的可观测性平台,Hubble 能够实时地提供对 Kubernetes 网络流量的深度洞察。它可以生成服务依赖关系图,让你直观地看到哪个服务正在与哪个服务通信;它还能提供详细的流日志,记录每一个网络连接的源、目的、协议、端口,甚至是 L7 层面的应用协议信息(如 HTTP 请求、DNS 查询)。
* **Retina**:作为对 Hubble 的补充和扩展,Retina 专注于提供更丰富的网络指标和可观测性数据。
这两者结合,为高级容器网络服务带来了以下关键的可观测性功能:
* **Pod 级指标**:提供每个 Pod 的网络使用率、丢弃的数据包等关键性能指标。
* **TCP 和 DNS 错误**:快速发现和诊断网络层的连接错误和域名解析问题。
* **端到端流日志**:追踪一个请求从入口到最终服务的完整路径。
* **应用服务连接图**:可视化地展现微服务架构的实时拓扑和流量模式。
* **简化的 DNS 过滤策略**:通过策略保护容器工作负载,防止其访问恶意域名,同时提高 DNS 服务的可用性。
#### **解读:从“黑盒”到“白盒”,可观测性是微服务的命脉**
在微服务架构中,网络不再是简单的“连接”,而是应用本身有机的一部分。如果网络是一个“黑盒”,那么当问题发生时,开发者和运维人员就会束手无策。高级容器网络服务通过 Hubble 和 Retina,将这个“黑盒”彻底变成了“白盒”。它提供的深度可观测性能力,不仅能帮助团队快速调试问题、缩短故障解决时间,更能帮助他们深刻理解应用的实际运行行为,从而进行性能优化、架构重构和容量规划。这对于保障大规模容器化应用的稳定性和可靠性至关重要。
---
### **洞见延伸:可行动的启示**
1. **全面拥抱零信任 (Zero Trust)**:将网络安全边界 (Network Security Perimeter) 和 Bastion 作为 PaaS 和 IaaS 服务的默认安全基线。不要再问“为什么要隔离”,而要问“为什么需要互相访问”。
2. **重新评估加密策略**:鉴于虚拟网络加密 (Virtual Network Encryption) 借助硬件实现了高性能,应重新审视内部流量加密策略。过去因性能损耗而未加密的内部 VNet 流量,现在可以低成本、无感知地全面开启加密,提升安全合规水平。
3. **将网络治理纳入云卓越中心 (CCoE)**:IPAM 和虚拟网络验证器 (Virtual Network Verifier) 等工具的出现,意味着网络治理应成为企业云卓越中心的核心职能。建立统一的 IP 地址规划和前瞻性的变更验证流程。
4. **赋能运维团队 AIOps 能力**:积极试用网络 Copilot,将其作为一线运维人员的“智能助手”。鼓励团队从传统的命令行排障,转向与 AI 对话式的、更高效的问题诊断模式。
5. **为 Kubernetes 选择 eBPF/Cilium 数据平面**:在新建 AKS 集群时,优先考虑使用基于 Cilium 的高级容器网络服务。其在性能、安全策略和可观测性上的优势,将为长期运维带来巨大价值。
6. **投资于可观测性 (Observability)**:利用高级容器网络服务提供的 Hubble 服务依赖图和流日志,构建应用级的实时监控大盘,将网络可观测性作为衡量微服务健康度的核心指标。
7. **简化高可用架构设计**:对于关键业务,利用 ExpressRoute Metro SKU 和引导式配置体验,简化跨站点高可用网络的部署。将架构设计的重点从“如何实现冗余”转向“业务需要哪个级别的冗余”。
8. **优化运维流程**:将负载均衡器的“管理员状态”功能集成到自动化发布流程中。在应用更新时,通过 API 自动将节点移出和移入,实现更平滑、更安全的蓝绿部署或滚动更新。
9. **突破订阅限制规划架构**:利用负载均衡器的跨订阅能力,重新审视和优化现有的 Azure 订阅和资源组织结构。让网络架构服务于管理和业务逻辑,而非技术限制。
10. **为未来规模做准备**:虽然当前业务可能不需要百万级 IP,但在设计新的大型 VNet 时,应了解 Azure 已经具备这种扩展能力,并在地址规划时预留足够的空间,避免未来的重构。
---
### **金句&原声引用**
1. *“Zero Trust Network Security is not just a concept—it’s an imperative, built around the principle that systems should be ‘Secure by Default’.”*
* 中文翻译:“零信任网络安全不仅仅是一个概念——它是一种必要措施,建立在系统应‘默认安全’的原则之上。”
2. *“By offloading encryption to FPGAs, Azure combines top-notch security with high-speed processing, ensuring that encrypted data flows smoothly across the network while minimizing the impact on overall system performance.”*
* 中文翻译:“通过将加密任务卸载到 FPGA,Azure 结合了顶级的安全性与高速处理能力,确保加密数据在网络中顺畅流动,同时将对整体系统性能的影响降至最低。”
3. *“DNSSEC is a critical security feature that helps mitigate issues such as cache poisoning and man in the middle attacks, thereby significantly enhancing security for our customers.”*
* 中文翻译:“DNSSEC 是一项关键的安全功能,有助于缓解缓存投毒和中间人攻击等问题,从而显著提升我们客户的安全性。”
4. *“For those needing additional failover protection, maximum resiliency with ExpressRoute provides dual redundant paths to each edge site, effectively establishing four independent paths to Azure.”*
* 中文翻译:“对于需要额外故障保护的用户,使用 ExpressRoute 的最大可靠性可为每个边缘站点提供双重冗余路径,从而有效地建立四条通往 Azure 的独立路径。”
5. *“Instead of implementing response logic and Network Security Group (NSG) rules blocks, customers can simply mark the instance as unhealthy through an API call or a single click in portal...”*
* 中文翻译:“客户无需实现响应逻辑和网络安全组 (NSG) 规则块,只需通过一次 API 调用或在门户中单击一下,即可将实例标记为不健康……”
6. *“Customers can validate their packet flows even before they deploy the configuration changes to reduce the possibility of connection interruptions and packet loss.”*
* 中文翻译:“客户甚至可以在部署配置变更之前验证其数据包流,以减少连接中断和数据包丢失的可能性。”
7. *“It provides highly contextual, actionable, and visual insights that go beyond documentation, acting like a personal networking advisor.”*
* 中文翻译:“它提供高度情境化、可操作和可视化的洞察,其能力超越了文档,就像一位个人网络顾问。”
8. *“Using the performance and security enforcement capabilities of Azure CNI powered by Cilium, Advanced Container Networking Services provides resilient and highly granular network policy and security management capabilities.”*
* 中文翻译:“利用由 Cilium 驱动的 Azure CNI 的性能和安全执行能力,高级容器网络服务提供了弹性和高度精细化的网络策略及安全管理功能。”
9. *“Deep observability into K8s network traffic and application performance for faster debugging, incident resolution times and OpEx savings.”*
* 中文翻译:“对 K8s 网络流量和应用性能的深度可观测性,可加快调试速度、缩短事件解决时间并节省运营开支。”
10. *“As we continue to push the boundaries of networking technology, we’re fully committed to addressing the new challenges and opportunities presented by the AI-driven future.”*
* 中文翻译:“随着我们不断推动网络技术的边界,我们全力以赴地应对由 AI 驱动的未来所带来的新挑战和新机遇。”
<!-- AI_TASK_END: AI竞争分析 -->
<!-- AI_TASK_START: AI全文翻译 -->
# 解锁未来:Azure 网络更新中的安全、可靠性和高可用性
**原始链接:** [https://azure.microsoft.com/en-us/blog/unlocking-the-future-azure-networking-updates-on-security-reliability-and-high-availability/](https://azure.microsoft.com/en-us/blog/unlocking-the-future-azure-networking-updates-on-security-reliability-and-high-availability/)
**发布时间:** 2024-11-07
**厂商:** AZURE
**类型:** BLOG
---
我们最新的增强功能加强了核心网络能力,以支持在云中运行的关键任务应用。
在以 AI 的变革力量定义的时代,行业正在重新构想预测分析 (Predictive Analytics)、自动化和实时决策的可能性。AI 如今无处不在,重塑了从零售、金融到医疗和生物技术等各个领域。虽然新应用利用了 AI 的潜力,但通过生成式 AI (Generative AI) 方法演进现有应用才是推动指数级进步的关键。随着应用加速迁移到云,云平台作为这一转型的关键支柱,连接用户与应用、应用与 AI 模型,以及模型与所需的数据和计算资源。
[Microsoft Azure 的网络服务](https://azure.microsoft.com/en-us/solutions/networking/) 独特地赋能企业利用这一数字演进。我们最新的增强功能加强了核心网络能力:强化安全、性能和可靠性,以支持在云中运行的关键任务应用。

我们很高兴与大家分享我们的最新公告和进展,这些进展加强了 Azure 的核心网络服务,涵盖了我们核心支柱中的安全、可靠性和可扩展性,以及工作负载生产力。
# 加强网络安全
在网络威胁日益复杂和普遍的时代,传统的安全实践已不足以保护关键资产和数据。零信任网络安全 (Zero Trust Network Security) 不仅仅是一个概念——它是一种必要措施,建立在“默认安全 (Secure by Default)”的原则之上。
[保护您的网络和应用](https://azure.microsoft.com/en-us/solutions/network-security/)
### 网络安全边界
在当今的数字环境中,企业需要对安全做出坚定承诺,尤其是在使用 Azure 的平台即服务 (PaaS) 产品来执行关键功能时。确保数据机密性和完整性仍然是优先事项,特别是当应用在各种 PaaS 资源之间交互时。然而,保护这些交互的传统方法存在局限,往往依赖于对 Azure 服务的大范围访问权限——这远超企业理想中的许可范围。

网络安全边界 (Network Security Perimeter) 精确解决了这一需求,通过建立一个可信边界来管理指定 PaaS 实例之间的交互。网络安全边界的控件——如访问控制列表 (Access Control List, ACL) 规则和集中日志记录——使企业能够将通信限制在授权资源中,从而增强 PaaS 环境的整体安全。网络安全边界是迈向零信任安全原则的基石,确保对关键业务交互进行全面的入口和出口控制。
### 默认 Bastion
作为我们为客户提供“默认安全”平台的使命的一部分,我很高兴强调我们最近宣布的 **Bastion 开发者 SKU 正式发布**。Bastion 服务被众多 Azure 客户用于启用虚拟机的远程桌面 (RDP) 和安全外壳 (SSH) 访问,而无需将它们公开暴露在互联网上。这得益于在虚拟网络中运行的完全托管和专用的 Bastion 服务器。现在,通过 Bastion 开发者 SKU,我们提供了一个“无成本”解决方案,允许用户对单个虚拟机 (VM) 建立安全的单键连接,而无需在 VM 上暴露公共 IP。Bastion 开发者 SKU 利用 Microsoft 内部管理的共享资源池来实现安全的 VM 连接。用户可以通过 Azure 门户中的 VM 界面直接访问其 VM,支持 RDP/SSH 和仅 SSH 的 CLI 会话。Bastion 开发者适合那些寻求安全 VM 连接的用户,而无需额外功能、配置或扩展,且无需额外成本。
### 虚拟网络加密
随着数据敏感行业如金融、医疗和政府机构的快速增长,对 uncompromising 网络安全的需求变得至关重要,以保护敏感信息并确保合规性。Azure 的 **虚拟网络加密 (Virtual Network Encryption)** 满足了这一需求,通过提供一种高效的解决方案来加密虚拟网络内虚拟机之间的通信。该功能现已在所有公共 Azure 区域正式发布,这标志着安全网络设计的重要进步,使组织能够在不牺牲性能或敏捷性的情况下保护虚拟机之间传输中的数据。

虚拟网络加密利用 **现场可编程门阵列 (Field Programmable Gate Arrays, FPGAs)** 在主机上进行数据加密,从而实现高效处理。通过将加密任务卸载到 FPGAs,Azure 结合了顶级安全性和高速度处理,确保加密数据在网络中顺畅流动,同时最小化对整体系统性能的影响。
### DNSSEC
同样地,今天我们很高兴宣布 **[DNSSEC 支持在 Azure 中的公开预览](https://learn.microsoft.com/azure/dns/dnssec)**。通过此功能,客户可以通过门户或 API 的简单选择启用其域名系统 (DNS) 配置中的 DNSSEC。DNSSEC 是一个关键安全功能,有助于缓解缓存投毒和中间人攻击等问题,从而显著提升客户的安全性。DNSSEC 确保 DNS 响应的完整性和真实性,提供额外的保护层来抵御网络威胁。而且,许多国家现在要求使用 DNSSEC,这使其成为合规性的必要更新。通过 DNSSEC,Azure DNS 继续提供稳健且安全的 DNS 解决方案,赋能企业在更安全的数字环境中自信运营。
# 推动可靠性和弹性的边界
我们同样致力于提供世界级的高弹性和可靠网络基础设施,以支持客户的关键任务工作负载。在这方面,我想强调平台中最近的几项增强功能,这些增强加强了这一承诺。
### ExpressRoute:提升可靠性和高可用性
在当今以云为中心的世界,确保可靠且稳定的连接至关重要,尤其是对于拥有关键任务应用的企业。Azure ExpressRoute 提供从本地环境到 Azure 的私有、高吞吐量连接,绕过公共互联网以提供更低的延迟和一致性能。
为了进一步加强可靠性,我们很高兴宣布 **ExpressRoute Metro SKU 现已正式发布**。Metro SKU 在同一城市内的多个边缘站点提供冗余,防范任何单个位置的干扰。这种多站点设计使组织能够构建高度可用的网络架构,即使在某个边缘站点出现意外中断时也能保持运行。
对于需要额外故障保护的用户,**最大可靠性 (Maximum Resiliency)** 通过 ExpressRoute 提供到每个边缘站点的双冗余路径,从而有效地建立四条独立路径到 Azure。此功能对金融、医疗和电子商务等行业至关重要,在这些行业中,一致的连接对于合规性和业务连续性至关重要。

此外,为了简化实施,Azure 现在为多站点 ExpressRoute 提供 **引导配置体验**。此新功能在 Azure 门户中提供动态拓扑映射和最佳站点配置建议,赋能团队为弹性网络部署做出明智决策。
### Azure 负载均衡器:提升可管理性
[Azure 负载均衡器](https://azure.microsoft.com/en-us/products/load-balancer/) 是网络产品组合中的基础服务之一,它是一个云原生高性能网络负载均衡器,常用于客户部署。虽然我们持续改进其可用性、适用性和可扩展性以满足不断演变的需求,但最近的几项公告将显著提升负载均衡器的可管理性。
**管理员状态**
负载均衡器的“管理员状态”新功能允许客户标记后端实例为健康或不健康,以影响流量导向。该状态的控制通常通过健康探测来完成。然而,客户确实需要显式覆盖健康状态,例如在维护、升级或安全修补期间,或出于其他需求。将实例从轮转中移除时,客户无需实现响应逻辑和网络安全组 (Network Security Group, NSG) 规则块,只需通过 API 调用或门户中的单键操作标记实例为不健康,然后同样方式恢复。我们还通过新的改进“负载均衡器健康状态”增强了后端健康的可见性,该功能提供对后端实例健康的深度洞察,包括用户和平台触发的原因代码。

管理员状态和负载均衡器健康状态现已在所有公共云区域、Azure 中国云区域和 Azure 政府云区域正式发布。
**跨订阅支持**
客户的 Azure 资产通常分布在多个订阅和虚拟网络中,甚至由不同人员和部门管理。客户发现仅使用单个订阅中的资源构建应用拓扑具有限制性,尤其在使用基本原语如负载均衡器时。为解决此问题,Azure 负载均衡器宣布跨订阅使用的正式发布,包括前端公共 IP 地址、负载均衡器资源和后端实例。此跨订阅使用允许更好地利用资源并避免重复。

# 在规模上管理操作
随着组织扩展其云环境以适应增长,它们需要网络解决方案,不仅能扩展容量,还能确保高效、可靠且安全的连接。Azure 在虚拟网络管理方面的最新进展回应了这一需求,通过提供强大的工具来实现 IP 可扩展性、高效地址管理和高级网络验证。
### 虚拟网络 IP 地址
一个虚拟网络目前支持 65,000 个可路由 IP 地址,可分配给虚拟机、虚拟机规模集实例和 AKS 集群中的 Pod。虽然此限制对大多数 Azure 客户来说绰绰有余,但我们的某些云原生客户确实需要更高的规模,以应对即时需求和频繁的扩展和缩减操作。为解决此问题,Azure 很高兴宣布通过“IP 前缀在网络接口卡 (Network Interface Card, NIC) 上”功能,在虚拟网络中支持“**1 百万可路由 IP 地址**”的预览。此功能允许在 NIC 上添加一个额外的 /28 前缀以及主 /32 IP 地址,从而将 NIC 中的可用 IP 空间增加 16 倍。
### 虚拟网络 IP 地址管理器
随着 Azure 中需要使用和管理的 IP 地址增多,对 IP 地址管理系统的需求也随之增加。我们很高兴宣布 **IP 地址管理 (IPAM) 解决方案在 Azure 虚拟网络管理器中的公开预览 (并即将正式发布)**,在所有公共云区域可用。IPAM 允许组织集中管理其 IP 地址池,从而更轻松地规划、分配、避免重叠并监控 IP 地址块。客户还可以在创建新虚拟网络时利用自动 IP 地址分配,以确保唯一性和减少浪费。IPAM 还帮助跟踪 Azure 外的 IP 分配,使其成为一个全面解决方案。IPAM 支持 IPv4 和 IPv6 地址前缀。
### 虚拟网络验证器
随着客户在 Azure 中扩展其环境,调试和排除网络连接问题变得更加困难。Azure 网络监控和网络观察者提供实时诊断和故障排除工具。Azure 虚拟网络管理器的虚拟网络验证器系统——目前在所有公共云区域的预览中——添加了另一个功能层,通过基于配置和控制平面更改的静态分析来验证数据包流。客户可以在部署配置更改之前验证其数据包流,从而减少连接中断和数据包丢失的可能性。

# 新领域的进展
在快速演变的云原生应用世界中,管理复杂的基于容器的架构需要强大的网络能力,以确保安全、性能和无缝可扩展性。Azure 的 **高级容器网络服务 (Advanced Container Networking Services)** 是向前迈出的重大一步,为开发人员在云中部署微服务和 Kubernetes 应用提供基础支持和新功能。
### 网络 Copilot
虽然为托管 AI 工作负载提供高性能、高弹性和安全网络基础设施是我们的首要任务,但作为 AI 工具的用户,我们很高兴宣布我们正在为 Azure Copilot 添加网络技能。Azure 网络 Copilot 处理程序将帮助客户解决关于 Azure 网络服务的更深层问题,并无缝高效地排除连接问题。它提供高度相关的、可操作的和视觉洞察,超越了文档,如同一位个人网络顾问。具体来说,网络 Copilot 可以帮助进行网络故障排除、产品选择、深入网络指标和资源诊断。

### 高级容器网络服务
Azure 提供基础网络功能,如 Azure 虚拟网络和 Azure CNI,用于 IP 地址管理、路由和网络策略执行。网络虚拟功能如负载均衡、Azure 防火墙用于容器应用,以及应用网关用于容器,也被提供以帮助在 Azure 中运行微服务和 Kubernetes 应用。在这一持续旅程中,我们很高兴宣布 [高级容器网络服务](https://learn.microsoft.com/en-us/azure/aks/advanced-container-networking-services-overview) 的正式发布,该服务提供对网络流量和应用性能的深入洞察,帮助您自信地管理和扩展基础设施。利用 [Azure CNI 由 Cilium 提供支持](https://learn.microsoft.com/en-us/azure/aks/azure-cni-powered-by-cilium) 的性能和安全执行功能,高级容器网络服务提供弹性和高度细粒度的网络策略和安全管理功能。扩展 [Cilium](https://cilium.io/) 并结合 [Retina](https://retina.sh/),高级容器网络服务利用 [Hubble](https://github.com/cilium/hubble),提供可操作的洞察,并实现 Kubernetes 网络问题的精确检测和解决。关键功能包括:
- 对 K8s 网络流量和应用性能的深入可观察性,以加快调试、缩短事件解决时间并节省运维开支。
- K8s Pod 级别的指标,如使用率和丢弃的数据包。
- 传输控制协议 (TCP) 和 DNS 错误及指标。
- 端到端流日志。
- 应用服务连接映射。
- 通过 DNS 过滤策略简化安全,以保护容器工作负载并改善 DNS 可用性。


# 展望未来
随着我们继续推动网络技术的边界,我们全力致力于应对 AI 驱动未来带来的新挑战和机会。我们的团队致力于创建创新、弹性和安全的解决方案,赋能企业充分利用 AI 和云。我们在安全、可靠性和可扩展性方面的最新更新旨在帮助组织更自信和高效地管理其应用。我们认识到您的反馈对我们持续开发至关重要,并鼓励您与我们分享您的想法和经验。加入我们的 Ignite 会话 ([揭开 Azure 网络的最新动态:打造安全、连接的云](https://ignite.microsoft.com/en-US/sessions/BRK240)),详细探索这些功能并分享反馈,因为我们共同努力解锁未来。
<!-- AI_TASK_END: AI全文翻译 -->