AI 快讯
编译自 marktechpost #模型发布#音频生成#开源
Stability AI 发布 Stable Audio 3:开源音频生成模型,支持 44.1kHz 立体声和变长输出
Stability AI 推出 Stable Audio 3,包含小、中、大三种规格的潜在扩散模型,可生成 44.1kHz 立体声音乐和音效。小模型可在 MacBook Pro M4 CPU 上运行,中模型适配 8GB VRAM 消费级 GPU。开源权重已发布至 Hugging Face,BBC 音效基准测试中 FAD 达 0.369。
一句话看懂
Stability AI 发布 Stable Audio 3,一套开源音频生成模型,支持 44.1kHz 立体声、变长输出和基于修补的编辑,小模型可在 MacBook Pro M4 CPU 上运行。
详细发生了什么
Stability AI 于 2026 年 5 月 26 日发布了 Stable Audio 3,这是一系列潜在扩散模型,用于生成乐器音乐和音效。模型分为 small、medium 和 large 三种规格:
- small-music 和 small-sfx:459M 参数,最长 2 分钟,分别针对音乐和音效;
- medium:1.4B 参数,最长 6 分 20 秒,支持音乐和音效;
- large:2.7B 参数,同样最长 6 分 20 秒。
small 和 medium 的权重已在 Hugging Face 上开源,large 需企业许可。模型采用两阶段架构:SAME 自编码器(将 44.1kHz 音频压缩为 10.76 Hz 的潜在序列)和扩散 Transformer。训练分三步:流匹配预训练、蒸馏热身和对抗后训练。推理时使用“乒乓采样”,8 步即可生成高质量音频。
在 BBC 音效基准测试中,medium 模型在 5 秒片段上的 FAD 得分为 0.369,低于所有开源基线模型。
中文圈视角
Stable Audio 3 对中文用户有几点值得关注:
- 硬件门槛友好:small 模型可在 MacBook Pro M4 CPU 上运行,medium 仅需 8GB VRAM 的消费级 GPU,这意味着国内用户无需高端显卡即可本地部署。不过,Hugging Face 在国内访问不稳定,可能需要代理或等待国内镜像(如 ModelScope)同步。
- 国产替代对比:国内音频生成领域有字节跳动的 MegaTTS、网易的语音合成等,但开源音乐/音效生成模型较少。Stable Audio 3 的开源权重为中文开发者提供了二次微调的可能,例如用于短视频配乐、游戏音效生成等场景。
- 中文场景适配:模型基于 T5Gemma 文本编码器,对中文 prompt 的支持可能不如英文。用户需注意 prompt 语言,或自行微调以适配中文。
- 合规风险:开源模型可本地部署,规避了数据出境问题,但生成内容的版权归属需参考 Stability AI 的许可协议。
几条值得记住的细节
- small 模型可在 MacBook Pro M4 CPU 上运行,medium 适配 8GB VRAM 消费级 GPU。
- 生成 20 秒音频,medium 模型在 H200 上仅需 0.62 秒;生成 380 秒需 1.31 秒。
- 支持变长输出,推理成本与时长成正比,无需固定长度填充。
- SAME 自编码器实现 4096 倍压缩,远高于此前常见的 1024-2048 倍。
- 开源权重仅限 small 和 medium,large 需企业许可。
一句话总结
Stable Audio 3 让音频生成的门槛大幅降低,中文用户可在消费级硬件上本地运行,但 prompt 适配和合规问题仍需留意。