Stability AI 发布 Stable Audio 3：开源音频生成模型，支持 44.1kHz 立体声和变长输出

一句话看懂

Stability AI 发布 Stable Audio 3，一套开源音频生成模型，支持 44.1kHz 立体声、变长输出和基于修补的编辑，小模型可在 MacBook Pro M4 CPU 上运行。

详细发生了什么

Stability AI 于 2026 年 5 月 26 日发布了 Stable Audio 3，这是一系列潜在扩散模型，用于生成乐器音乐和音效。模型分为 small、medium 和 large 三种规格：

small-music 和 small-sfx：459M 参数，最长 2 分钟，分别针对音乐和音效；
medium：1.4B 参数，最长 6 分 20 秒，支持音乐和音效；
large：2.7B 参数，同样最长 6 分 20 秒。

small 和 medium 的权重已在 Hugging Face 上开源，large 需企业许可。模型采用两阶段架构：SAME 自编码器（将 44.1kHz 音频压缩为 10.76 Hz 的潜在序列）和扩散 Transformer。训练分三步：流匹配预训练、蒸馏热身和对抗后训练。推理时使用“乒乓采样”，8 步即可生成高质量音频。

在 BBC 音效基准测试中，medium 模型在 5 秒片段上的 FAD 得分为 0.369，低于所有开源基线模型。

中文圈视角

Stable Audio 3 对中文用户有几点值得关注：

硬件门槛友好：small 模型可在 MacBook Pro M4 CPU 上运行，medium 仅需 8GB VRAM 的消费级 GPU，这意味着国内用户无需高端显卡即可本地部署。不过，Hugging Face 在国内访问不稳定，可能需要代理或等待国内镜像（如 ModelScope）同步。
国产替代对比：国内音频生成领域有字节跳动的 MegaTTS、网易的语音合成等，但开源音乐/音效生成模型较少。Stable Audio 3 的开源权重为中文开发者提供了二次微调的可能，例如用于短视频配乐、游戏音效生成等场景。
中文场景适配：模型基于 T5Gemma 文本编码器，对中文 prompt 的支持可能不如英文。用户需注意 prompt 语言，或自行微调以适配中文。
合规风险：开源模型可本地部署，规避了数据出境问题，但生成内容的版权归属需参考 Stability AI 的许可协议。

几条值得记住的细节

small 模型可在 MacBook Pro M4 CPU 上运行，medium 适配 8GB VRAM 消费级 GPU。
生成 20 秒音频，medium 模型在 H200 上仅需 0.62 秒；生成 380 秒需 1.31 秒。
支持变长输出，推理成本与时长成正比，无需固定长度填充。
SAME 自编码器实现 4096 倍压缩，远高于此前常见的 1024-2048 倍。
开源权重仅限 small 和 medium，large 需企业许可。

一句话总结

Stable Audio 3 让音频生成的门槛大幅降低，中文用户可在消费级硬件上本地运行，但 prompt 适配和合规问题仍需留意。