NVIDIA Blackwell 在金融 LLM 推理基准 STAC-AI 中创纪录,性能提升显著
NVIDIA Blackwell GPU 在金融行业标准基准 STAC-AI 的 LLM 推理测试中创下新纪录,性能较前代大幅提升。本文解读该基准的意义、Blackwell 的技术优势,以及对中文金融用户和国产硬件的启示。
一句话看懂
NVIDIA Blackwell GPU 在金融 LLM 推理基准 STAC-AI 中创下新纪录,推理速度比 H100 快数倍,为高频交易和实时分析提供更强算力。
详细发生了什么
NVIDIA 宣布其 Blackwell GPU 在 STAC-AI 基准测试中取得 LLM 推理性能新纪录。STAC-AI 是金融行业广泛使用的标准基准,用于评估 AI 系统在交易、风险管理等场景下的推理能力。测试中,Blackwell 运行 Llama 3.1 70B 模型,在多个关键指标上领先,包括每秒处理 token 数(TPS)和端到端延迟。与上一代 H100 相比,Blackwell 在相同功耗下实现了 2-3 倍的推理吞吐量提升,部分场景延迟降低 50% 以上。该成绩得益于 Blackwell 的 FP4 精度支持、更大显存(192GB HBM3e)以及 NVLink 互联技术。NVIDIA 表示,这些改进使金融机构能够更快地处理海量市场数据,生成交易信号,并部署更复杂的 AI 策略。
中文圈视角
对中文金融用户而言,Blackwell 的突破意味着两件事:一是国内量化交易和风控系统有望通过采购 Blackwell 加速卡获得性能飞跃,但受出口管制影响,高端 Blackwell 型号可能无法直接进入中国市场,需关注合规替代方案(如华为昇腾 910B 或寒武纪思元系列)。二是 STAC-AI 基准本身在国内金融 AI 领域关注度不高,但类似评测(如 MLPerf)已开始被头部券商和基金公司采用。中文用户可借鉴其方法论,建立自己的推理性能评估体系。此外,Blackwell 的 FP4 精度对中文大模型(如 Qwen、DeepSeek)的推理优化有参考价值,国内硬件厂商需加速低精度支持。
几条值得记住的细节
- Blackwell 在 STAC-AI 测试中运行 Llama 3.1 70B,TPS 达到 12,000+,延迟低于 100ms。
- 相比 H100,Blackwell 在相同功耗下推理吞吐量提升 2-3 倍,部分场景延迟降低 50% 以上。
- Blackwell 支持 FP4 精度,显存容量 192GB HBM3e,带宽 8 TB/s。
- STAC-AI 基准涵盖实时市场数据、新闻情感分析等金融场景。
- NVIDIA 计划 2026 年下半年向主要云服务商提供 Blackwell 实例。
一句话总结
Blackwell 在金融 LLM 推理上创纪录,但国内用户需关注出口限制和国产替代方案的进展。