AI 快讯 编译自 aws_ml_blog #AWS#模型加载#GPUDirect#FSx for Lustre#TurboQuant

AWS FSx for Lustre + GPUDirect 加速 LLM 模型加载,TurboQuant 扩展上下文窗口

AWS 发布新方案,通过 FSx for Lustre 与 NVIDIA GPUDirect Storage 结合,将 LLM 模型冷启动加载时间从 10-20 分钟缩短至秒级。同时 TurboQuant KV cache 技术显著增大上下文窗口。本文详解技术原理、性能数据及对中文用户的实际影响。

编译发布 2026/06/01 原文发布 2026/06/01

一句话看懂

AWS 利用 FSx for Lustre 和 NVIDIA GPUDirect Storage,将大模型冷启动加载时间从 10-20 分钟降至秒级,同时 TurboQuant 技术大幅扩展上下文窗口。

详细发生了什么

AWS 发布了一篇技术博客,介绍如何通过 Amazon FSx for Lustre 并行文件系统与 NVIDIA GPUDirect Storage (GDS) 结合,显著加速大语言模型 (LLM) 在 GPU 实例上的加载过程。传统方式下,模型权重需经过 CPU 内存、PCIe 总线逐 GPU 复制,加载 Llama 3.1 405B(约 800 GB BF16)耗时 10-20 分钟。新方案将检查点预分片到 FSx for Lustre 上,利用 EFA 网络直通 GPU HBM,实现 8 块 GPU 并行加载,冷启动时间降至秒级。

此外,博客还介绍了 TurboQuant KV cache 技术,通过量化 KV cache 大幅降低内存占用,从而在相同硬件上支持更大的上下文窗口。该方案适用于 AWS 最新的 P6e/P6 实例(NVIDIA Blackwell 架构)及 P5en 实例(8x H200 GPU)。

中文圈视角

国内用户能用吗? 该方案完全基于 AWS 云服务,国内用户需通过 AWS 中国区域(如北京、宁夏)或海外区域使用。由于涉及 EFA 和 FSx for Lustre,需要一定的 AWS 配置经验,但 AWS 提供了自动化脚本。

国产平替对比: 国内云厂商如阿里云、华为云也提供类似的高性能并行文件系统(如阿里云 CPFS、华为云 SFS Turbo)和 GPU 直通技术,但具体实现和性能数据尚未公开对标。对于使用国产 GPU(如昇腾、寒武纪)的用户,需确认是否支持 GPUDirect 类似功能。

对中文用户场景的影响: 对于部署中文大模型(如 Qwen、DeepSeek)的企业,模型加载加速意味着更快的弹性伸缩和故障恢复,降低 GPU 闲置成本。TurboQuant 扩展上下文窗口对长文档处理、代码库分析等场景尤为实用。

监管/合规: 使用 AWS 海外区域需注意数据出境合规,国内用户建议优先使用 AWS 中国区域或国产云服务。

几条值得记住的细节

  • Llama 3.1 405B 在传统 CPU 加载下需 10-20 分钟,使用 GDS 后降至秒级。
  • P5en 实例配备 8 块 H200 GPU(每块 141 GB HBM3e),通过 NVSwitch 互联,带宽 3.6 TB/s。
  • FSx for Lustre 文件系统吞吐量随容量线性扩展,测试配置为 1000 MBps/TiB,20 个 OST,总吞吐约 94 GiB/s。
  • TurboQuant 通过量化 KV cache 减少内存占用,从而支持更大上下文窗口,具体数值未在本文中给出。
  • 该方案适用于任何支持张量并行分片的模型,包括 Mixtral、DeepSeek 等。

一句话总结

如果你在 AWS 上部署大模型,这个方案能让你少等十几分钟,省下 GPU 空转的钱,还能处理更长的上下文。