在2026年消费电子展(CES)上,NVIDIA Rubin 平台重磅问世,而与之同时展现和验证的,还有 Microsoft Azure(国际版)的部署就绪能力。微软的远瞻性数据中心战略正是为这类时刻而设计,使 NVIDIA 的下一代系统可以直接嵌入我们的基础设施。早在数年之前,我们就已超前预判行业趋势,使基础设施预先满足了其对电力、散热、内存和网络的需求。而我们与 NVIDIA 的长期合作确保了 Rubin 能够直接融入 Microsoft Azure(国际版)的前瞻性平台设计。
01
为未来而设计
Microsoft Azure(国际版)的 AI 数据中心专为加速计算的未来而设计。这使得 NVIDIA Vera Rubin NVL72 机架能够无缝集成到 Microsoft Azure(国际版)最大的下一代 AI 超级工厂中,从威斯康星到亚特兰大,无论是现有的 Fairwater 站点还是未来的新建项目,都能支持这一特性。
最新的 NVIDIA AI 基础设施需要对电力、冷却和性能优化进行重大升级,而 Microsoft Azure(国际版)在 Fairwater 站点以及多年来多次升级周期中积累的经验表明,我们有能力随着技术的进步,灵活地增强并扩展 AI 技术基础设施。
02
更成熟的
Azure 交付规模与性能
微软在设计和部署可扩展 AI 基础设施方面拥有多年经验,并广受市场验证。随着每一次AI 技术的重大进步,这些基础设施也同样在演进。通过与 NVIDIA 每一代加速计算基础设施保持同步,微软也在迅速整合 NVIDIA 的创新技术并实现大规模交付。
AI 超级工厂模块化:与其他超大规模云厂商不同,微软构建的是区域级超级计算机而非单一的巨型站点,这使得新SKU 在全球范围内的推出更加可控。
06
将协同设计
转化为用户利益
NVIDIA Rubin 平台标志着加速计算向前迈出了重要一步,而 Microsoft Azure(国际版)的 AI 数据中心和超级工厂已经完成了能够充分利用这一优势的工程设计。
多年来在互联、内存系统、散热、封装和机架规模架构方面与 NVIDIA 的协同设计,意味着 NVIDIA Rubin 可以直接集成到 Microsoft Azure(国际版)平台而无需返工。NVIDIA Rubin 的核心假设也已经反映在我们的网络、电力、冷却、编排和 Pod 交换设计原则中。这种协同一致为客户带来了即时利益,让他们在构建下一个大规模 AI 时代时,能够实现更快的部署、更快的扩展和更早的影响力。
微软Azure数据中心超前布局,全面对接NVIDIA下一代算力架构
在2026年消费电子展(CES)上,NVIDIA Rubin 平台重磅问世,而与之同时展现和验证的,还有 Microsoft Azure(国际版)的部署就绪能力。微软的远瞻性数据中心战略正是为这类时刻而设计,使 NVIDIA 的下一代系统可以直接嵌入我们的基础设施。早在数年之前,我们就已超前预判行业趋势,使基础设施预先满足了其对电力、散热、内存和网络的需求。而我们与 NVIDIA 的长期合作确保了 Rubin 能够直接融入 Microsoft Azure(国际版)的前瞻性平台设计。
01
为未来而设计
Microsoft Azure(国际版)的 AI 数据中心专为加速计算的未来而设计。这使得 NVIDIA Vera Rubin NVL72 机架能够无缝集成到 Microsoft Azure(国际版)最大的下一代 AI 超级工厂中,从威斯康星到亚特兰大,无论是现有的 Fairwater 站点还是未来的新建项目,都能支持这一特性。
最新的 NVIDIA AI 基础设施需要对电力、冷却和性能优化进行重大升级,而 Microsoft Azure(国际版)在 Fairwater 站点以及多年来多次升级周期中积累的经验表明,我们有能力随着技术的进步,灵活地增强并扩展 AI 技术基础设施。
02
更成熟的
Azure 交付规模与性能
微软在设计和部署可扩展 AI 基础设施方面拥有多年经验,并广受市场验证。随着每一次AI 技术的重大进步,这些基础设施也同样在演进。通过与 NVIDIA 每一代加速计算基础设施保持同步,微软也在迅速整合 NVIDIA 的创新技术并实现大规模交付。
我们于早期大规模部署的 NVIDIA Ampere 和 Hopper GPU,通过 NVIDIA Quantum-2 InfiniBand 网络连接,对 GPT-3.5 等模型的孵化与诞生也发挥了重要作用,并有其他集群创造了超级计算性能记录,这证明了,相较于其他公司,我们能够更快地让下一代系统上线,并获得更高的实际性能。
我们展示了 NVIDIA GB200 NVL72 和 NVIDIA GB300 NVL72 平台的首次及最大规模实现,这些平台以机架形式整合起了一套单一超级计算机,能显著提升 AI 模型的训练速度,帮助 Microsoft Azure(国际版)始终成为寻求先进 AI 技术能力的客户首选。
03
Azure 的
系统化方法
Microsoft Azure(国际版)的设计旨在让计算、网络、存储、软件和基础设施作为一个集成平台协同工作。其构建的持久优势,实现了成本与性能随时间推移而持续累积的突破。
最大化 GPU 的利用率需要对这一系统中的每一层进行优化。除了 Microsoft Azure(国际版)能够尽早采用 NVIDIA 新的加速计算平台外,Microsoft Azure(国际版)的优势还源自周边平台,例如高吞吐量的 Blob 存储、受实际生产模式影响的邻近放置组 (Proximity Placement Groups) 和区域级设计,以及针对大规模集群低开销调度优化的 CycleCloud 和 AKS 等编排层。
Azure Boost 和其他卸载引擎解决了 IO、网络和存储瓶颈,使模型能够平稳扩展。更快的存储馈送更大的集群,更强的网络维持其运行,而优化的编排则保持端到端性能的稳定。第一方创新强化了这一闭环:液冷热交换单元可满足严苛的散热需求,Azure 硬件安全模块(HSM)芯片卸载安全工作,Azure Cobalt 则为通用计算和 AI 相关任务提供卓越的性能和效率。这些集成共同确保了整个系统的高效扩展,使 GPU 投资发挥最大价值。
凭借这种系统化方法,Microsoft Azure(国际版)已全面对接 Rubin 平台。我们正在交付的新系统及端到端平台,在设计之初就已精准匹配 Rubin 的各项技术需求。
04
运行 NVIDIA Rubin 平台
NVIDIA Vera Rubin 超级芯片将提供每芯片 50 PF 的 NVFP4 推理性能,以及每机架 3.6 EF 的 NVFP4 性能,相比 NVIDIA GB200 NVL72 机架系统实现了五倍的性能跃升。
Microsoft Azure(国际版)现已纳入了 Rubin 所需的核心架构假设:
NVIDIA NVLink 的演进:Vera Rubin NVL72 系统中预期的第六代 NVIDIA NVLink 互联带宽达到约 260 TB/s 的纵向扩展带宽,Microsoft Azure(国际版)的机架架构已经过重新设计,旨在充分发挥这些带宽和拓扑优势。
高性能横向扩展网络:Rubin AI 基础设施依赖于由 Microsoft Azure(国际版)网络基础设施提供的超快 NVIDIA ConnectX-9 1,600 Gb/s 网络,该基础设施专为支持大规模 AI 工作负载而构建。
HBM4/HBM4e 散热与密度规划:Rubin 内存栈需要更窄的温控区间和更高的机架密度;Microsoft Azure(国际版)的冷却、电力范围和机架几何结构已经完成升级,以应对相同的约束。
SOCAMM2 驱动的内存扩展:Rubin 超级芯片采用新的内存扩展架构;Microsoft Azure(国际版)平台已经集成并验证了类似的内存扩展行为,以在大规模环境下持续为模型提供数据。
扩展 GPU 芯片尺寸及多芯片封装:Rubin 转向更大规模的 GPU 占用空间和多芯片布局。Microsoft Azure(国际版)的供应链、机械设计和编排层已针对这些物理和逻辑扩展特性进行了预调优。
Microsoft Azure(国际版)在设计 Rubin 等下一代加速计算平台时的方法已在数年间得到证实,包括以下重要里程碑:
在多代 GPU 中运行全球最大的商业 InfiniBand 部署。
构建了可靠性层和拥塞管理技术,相比竞争对手释放了更高的集群利用率和更大的任务规模,这体现在我们能够发布行业领先的大规模基准测试结果上。例如,竞争对手从未复制过的多机架 MLPerf 运行。
从底层开始与 Grace Blackwell 和 Vera Rubin 共同设计的 AI 数据中心,旨在最大化集群层面的性能和单位成本性能。
05
创新设计
让 Azure 脱颖而出
Pod 交换架构:为了实现快速服务,Microsoft Azure(国际版)的 GPU 服务器托盘设计为可快速更换,无需大量重新布线,从而提高了运行时间。
冷却抽象层:Rubin 的多芯片、高带宽组件需要复杂的散热余量,但Fairwater 已经能够应对这一挑战,避免了昂贵的改造周期。
下一代电力设计:Vera Rubin NVL72 要求不断增加的功率密度,而Microsoft Azure(国际版)多年的电力重新设计(液冷循环修订、CDU 扩展和高安培母线槽)确保了即时部署能力。
AI 超级工厂模块化:与其他超大规模云厂商不同,微软构建的是区域级超级计算机而非单一的巨型站点,这使得新SKU 在全球范围内的推出更加可控。
06
将协同设计
转化为用户利益
NVIDIA Rubin 平台标志着加速计算向前迈出了重要一步,而 Microsoft Azure(国际版)的 AI 数据中心和超级工厂已经完成了能够充分利用这一优势的工程设计。
多年来在互联、内存系统、散热、封装和机架规模架构方面与 NVIDIA 的协同设计,意味着 NVIDIA Rubin 可以直接集成到 Microsoft Azure(国际版)平台而无需返工。NVIDIA Rubin 的核心假设也已经反映在我们的网络、电力、冷却、编排和 Pod 交换设计原则中。这种协同一致为客户带来了即时利益,让他们在构建下一个大规模 AI 时代时,能够实现更快的部署、更快的扩展和更早的影响力。
*本账号所发布的内容均为微软原创作品或经权利人授权发布。未经许可,任何单位或个人不得复制、发行、传播、改编、翻译或汇编。