Stable Audio Open 是 Stability AI 开发的一款先进的文本转音频模型，旨在根据文本提示生成 44.1kHz 的高品质立体声音频。该开放权重模型使用 Creative Commons 数据进行训练，可用于学术和艺术用例。该模型利用自动编码器、基于 T5 的文本嵌入进行调节，以及基于变压器的扩散模型，使其能够产生逼真的声音和现场录音。

Stable Audio Open | 寻找最新最热门的音频AI | 浏览最全面的AI数据库

Stable Audio Open 是 Stability AI 开发的一款先进的文本转音频模型，旨在根据文本提示生成 44.1kHz 的高品质立体声音频。该开放权重模型使用 Creative Commons 数据进行训练，可用于学术和艺术用例。该模型利用自动编码器、基于 T5 的文本嵌入进行调节，以及基于变压器的扩散模型，使其能够产生逼真的声音和现场录音。 Stable Audio Open 模型权重可在 Hugging Face 上使用，它是根据 Stability AI 社区许可证发布的，允许个人或年收入不超过 100 万美元的组织进行非商业用途和商业用途。 主要特点<ul><li>高质量音频生成：以 44.1kHz 生成立体声音频，最长可达 47 秒。</li><li>开放权重模型：可在 Hugging Face 上供社区使用。</li><li>先进的架构：利用自动编码器、基于 T5 的文本嵌入和基于变压器的扩散模型。</li><li>知识共享数据：在来自 Freesound 和 Free Music 的近 500,000 个录音上进行训练存档。</li><li>灵活的用例：适用于声音设计、环境声音、样本创作、音频品牌推广和学术项目。</li><li>消费级硬件：可在消费级 GPU 上高效运行，例如用于本地训练的 A6000 GPU。</li><li>可定制：可进行微调以满足各个行业和创意项目的特定需求。</li></ul>

Stable Audio Open

Subscribe to the AI Search Newsletter