主要特点

  • :以 44.1kHz 生成立体声音频,最长可达 47 秒。
  • 可在 Hugging Face 上供社区使用。
  • 利用自动编码器、基于 T5 的文本嵌入和基于变压器的扩散模型。
  • 在来自 Freesound 和 Free Music 的近 500,000 个录音上进行训练存档。
  • :适用于声音设计、环境声音、样本创作、音频品牌推广和学术项目。
  • :可在消费级 GPU 上高效运行,例如用于本地训练的 A6000 GPU。
  • :可进行微调以满足各个行业和创意项目的特定需求。


在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

Featured on

AI Search

28

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!