AI 快讯 编译自 nvidia_developer #NVIDIA#Slurm#拓扑感知调度

NVIDIA GB200 NVL72 结合 Slurm 拓扑感知调度实现百亿亿次性能

NVIDIA 发布新方案,通过 Slurm 拓扑感知作业调度,在 GB200 NVL72 单机架中实现百亿亿次计算,优化万亿参数模型训练效率。本文解析技术细节、对中文用户的实际意义及国产替代对比。

编译发布 2026/05/24 原文发布 2026/05/21

一句话看懂

NVIDIA 发布新方案,利用 Slurm 拓扑感知作业调度,在 GB200 NVL72 单机架中释放百亿亿次计算性能,优化万亿参数 AI 模型训练效率。

详细发生了什么

NVIDIA 官方博客介绍了如何通过 Slurm 拓扑感知作业调度(Topology-Aware Job Scheduling)在 GB200 NVL72 系统中实现百亿亿次(Exascale)性能。GB200 NVL72 是一个单机架系统,集成了 72 个 Blackwell GPU 和 36 个 Grace CPU,通过 NVLink 和 NVSwitch 实现高速互联,可运行万亿参数级别的 AI 模型。

传统 Slurm 调度器在分配作业时可能忽略 GPU 间的拓扑关系,导致跨节点通信延迟增加。NVIDIA 的方案通过自定义的 Slurm 插件(如 select/cons_trestopology/block),让调度器感知 GPU 的物理位置和互联拓扑,从而将作业尽可能分配到同一 NVLink 域内,减少跨域通信开销。

具体实现包括:在 Slurm 配置中定义节点组(NodeGroups)和拓扑块(Topology Blocks),利用 hwloc 库获取硬件拓扑信息,并通过 --gres 参数指定 GPU 亲和性。测试显示,在 64 节点集群上,拓扑感知调度可将训练吞吐量提升高达 2.5 倍,同时降低作业排队时间。

中文圈视角

国内用户能用吗? 该方案基于 Slurm,这是 HPC 和 AI 集群的标配调度器,国内超算中心和大型企业(如阿里云、腾讯云、百度)广泛使用。但 GB200 NVL72 硬件受出口管制,国内无法直接购买。国产替代方案包括华为昇腾 910B 集群(通过 CANN 和 MindSpore 实现类似拓扑优化)以及寒武纪 MLU370 系列。在软件层面,国内已有类似工作:如鹏城实验室的“鹏城云脑”使用 Slurm 结合自研拓扑感知插件,优化国产 GPU 集群效率。

对中文用户的具体影响: 对于使用 NVIDIA H100/H800 集群的国内用户,该方案中的拓扑感知思想可直接借鉴——通过修改 Slurm 配置,提升现有集群的通信效率。尤其在混合精度训练和模型并行场景下,减少跨节点通信能显著降低训练成本。

监管/合规角度: GB200 NVL72 属于高端 AI 芯片,受 BIS 出口管制,国内无法合法获取。但该方案的技术思路(拓扑感知调度)是开源的,不涉及硬件限制,可复用于国产平台。

中文圈盲点: 多数中文教程仅介绍 Slurm 基础用法,缺乏对拓扑感知调度的深入实践。NVIDIA 此篇博客提供了详细的配置示例和性能数据,值得国内 HPC 运维人员参考。

几条值得记住的细节

  • GB200 NVL72 单机架包含 72 个 Blackwell GPU 和 36 个 Grace CPU,通过 NVLink 5 实现 900 GB/s 互联带宽。
  • 拓扑感知调度通过 topology/block 插件实现,需在 slurm.conf 中定义 TopologyParam=Block
  • 测试环境:64 节点集群,每个节点 8 个 GPU,使用 Megatron-LM 训练 GPT-3 175B 模型。
  • 性能提升:训练吞吐量从 1.2 TFLOPs 提升至 3.0 TFLOPs,提升 2.5 倍。
  • 该方案已集成到 NVIDIA 的 Base Command Manager 和 DGX Cloud 中。

一句话总结

如果你管理 AI 集群,拓扑感知调度是免费的性能加速器——尤其适合大模型训练场景。