TangoFlux 的核心是其架构,它由 5.15 亿个参数组成,并结合使用了扩散变换器 (DiT) 和多模态扩散变换器 (MMDiT)。这种独特的设计使模型能够有效地处理文本提示和持续时间嵌入,使用户不仅可以指定他们想要的声音,还可以指定这些声音应该持续多长时间。 TangoFlux 的训练过程涉及三个阶段的流程:预训练、微调和通过称为 CLAP-排序偏好优化 (CRPO) 的新框架进行偏好优化。这种方法有助于模型从用户偏好中学习,并根据反馈迭代地提高其性能。
文本到音频生成的关键挑战之一是难以创建可靠的偏好对进行训练。与可以依赖结构化奖励或黄金标准答案的传统模型不同,TangoFlux 通过生成增强其对齐能力的合成偏好数据来解决此问题。这种创新方法使 TangoFlux 在客观指标和主观评价方面都实现了最先进的性能。
TangoFlux 特别擅长生成各种各样的音效,包括鸟鸣和口哨等环境声音,以及爆炸等更复杂的音频事件。虽然它也支持音乐生成,但主要重点仍然是制作适合多媒体应用的清晰且有影响力的音效。该模型已在各种数据集上进行训练,使其能够有效地理解和重现复杂的听觉场景。
作为一个开源项目,TangoFlux 促进了研究社区内的可访问性和协作。开发人员和研究人员可以自由访问该模型的代码和预训练权重,从而鼓励在文本到音频生成方面进行进一步的实验和创新。提供全面的文档以帮助用户快速入门。
TangoFlux 的主要功能包括:
- 高速音频生成:在单个 A40 GPU 上大约 3.7 秒内生成长达 30 秒的音频。
- 多模式功能:处理文本提示和持续时间嵌入,实现灵活的音频输出控制。
- 创新的训练管道:结合预训练、微调和 CRPO,根据用户偏好增强模型性能。
- 广泛的音效:能够生成各种音频类型,包括游戏、电影和其他多媒体应用程序的音效。
- 开源可访问性:可根据开源许可免费使用,促进社区参与和贡献。
- 用户友好界面:支持命令行界面 (CLI) 和 Python API,可轻松集成到现有工作流程中。
- 强大的性能指标:在文本转音频生成任务中达到最先进的性能基准。
总体而言,TangoFlux 代表了音频生成技术领域的重大进步,为用户提供了一种强大的工具,结合了速度、质量和多功能性,可根据文本描述生成高保真音频。其开源性质确保了由社区贡献推动的持续改进,同时