NVIDIA Blackwell 在金融 LLM 推理基准 STAC-AI 中创纪录，性能提升显著

一句话看懂

NVIDIA Blackwell GPU 在金融 LLM 推理基准 STAC-AI 中创下新纪录，推理速度比 H100 快数倍，为高频交易和实时分析提供更强算力。

详细发生了什么

NVIDIA 宣布其 Blackwell GPU 在 STAC-AI 基准测试中取得 LLM 推理性能新纪录。STAC-AI 是金融行业广泛使用的标准基准，用于评估 AI 系统在交易、风险管理等场景下的推理能力。测试中，Blackwell 运行 Llama 3.1 70B 模型，在多个关键指标上领先，包括每秒处理 token 数（TPS）和端到端延迟。与上一代 H100 相比，Blackwell 在相同功耗下实现了 2-3 倍的推理吞吐量提升，部分场景延迟降低 50% 以上。该成绩得益于 Blackwell 的 FP4 精度支持、更大显存（192GB HBM3e）以及 NVLink 互联技术。NVIDIA 表示，这些改进使金融机构能够更快地处理海量市场数据，生成交易信号，并部署更复杂的 AI 策略。

中文圈视角

对中文金融用户而言，Blackwell 的突破意味着两件事：一是国内量化交易和风控系统有望通过采购 Blackwell 加速卡获得性能飞跃，但受出口管制影响，高端 Blackwell 型号可能无法直接进入中国市场，需关注合规替代方案（如华为昇腾 910B 或寒武纪思元系列）。二是 STAC-AI 基准本身在国内金融 AI 领域关注度不高，但类似评测（如 MLPerf）已开始被头部券商和基金公司采用。中文用户可借鉴其方法论，建立自己的推理性能评估体系。此外，Blackwell 的 FP4 精度对中文大模型（如 Qwen、DeepSeek）的推理优化有参考价值，国内硬件厂商需加速低精度支持。

几条值得记住的细节

Blackwell 在 STAC-AI 测试中运行 Llama 3.1 70B，TPS 达到 12,000+，延迟低于 100ms。
相比 H100，Blackwell 在相同功耗下推理吞吐量提升 2-3 倍，部分场景延迟降低 50% 以上。
Blackwell 支持 FP4 精度，显存容量 192GB HBM3e，带宽 8 TB/s。
STAC-AI 基准涵盖实时市场数据、新闻情感分析等金融场景。
NVIDIA 计划 2026 年下半年向主要云服务商提供 Blackwell 实例。

一句话总结

Blackwell 在金融 LLM 推理上创纪录，但国内用户需关注出口限制和国产替代方案的进展。