主要特点
- :以 44.1kHz 生成立体声音频,最长可达 47 秒。
- 可在 Hugging Face 上供社区使用。
- 利用自动编码器、基于 T5 的文本嵌入和基于变压器的扩散模型。
- 在来自 Freesound 和 Free Music 的近 500,000 个录音上进行训练存档。
- :适用于声音设计、环境声音、样本创作、音频品牌推广和学术项目。
- :可在消费级 GPU 上高效运行,例如用于本地训练的 A6000 GPU。
- :可进行微调以满足各个行业和创意项目的特定需求。
主要特点
在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!
Featured on
AI Search
28
Get top updates in AI to your inbox every weekend. It's free!