TangoFlux

TangoFlux 的核心是其架构，它由 5.15 亿个参数组成，并结合使用了扩散变换器 (DiT) 和多模态扩散变换器 (MMDiT)。这种独特的设计使模型能够有效地处理文本提示和持续时间嵌入，使用户不仅可以指定他们想要的声音，还可以指定这些声音应该持续多长时间。 TangoFlux 的训练过程涉及三个阶段的流程：预训练、微调和通过称为 CLAP-排序偏好优化 (CRPO) 的新框架进行偏好优化。这种方法有助于模型从用户偏好中学习，并根据反馈迭代地提高其性能。

文本到音频生成的关键挑战之一是难以创建可靠的偏好对进行训练。与可以依赖结构化奖励或黄金标准答案的传统模型不同，TangoFlux 通过生成增强其对齐能力的合成偏好数据来解决此问题。这种创新方法使 TangoFlux 在客观指标和主观评价方面都实现了最先进的性能。

TangoFlux 特别擅长生成各种各样的音效，包括鸟鸣和口哨等环境声音，以及爆炸等更复杂的音频事件。虽然它也支持音乐生成，但主要重点仍然是制作适合多媒体应用的清晰且有影响力的音效。该模型已在各种数据集上进行训练，使其能够有效地理解和重现复杂的听觉场景。

作为一个开源项目，TangoFlux 促进了研究社区内的可访问性和协作。开发人员和研究人员可以自由访问该模型的代码和预训练权重，从而鼓励在文本到音频生成方面进行进一步的实验和创新。提供全面的文档以帮助用户快速入门。

TangoFlux 的主要功能包括：

高速音频生成：在单个 A40 GPU 上大约 3.7 秒内生成长达 30 秒的音频。
多模式功能：处理文本提示和持续时间嵌入，实现灵活的音频输出控制。
创新的训练管道：结合预训练、微调和 CRPO，根据用户偏好增强模型性能。
广泛的音效：能够生成各种音频类型，包括游戏、电影和其他多媒体应用程序的音效。
开源可访问性：可根据开源许可免费使用，促进社区参与和贡献。
用户友好界面：支持命令行界面 (CLI) 和 Python API，可轻松集成到现有工作流程中。
强大的性能指标：在文本转音频生成任务中达到最先进的性能基准。

总体而言，TangoFlux 代表了音频生成技术领域的重大进步，为用户提供了一种强大的工具，结合了速度、质量和多功能性，可根据文本描述生成高保真音频。其开源性质确保了由社区贡献推动的持续改进，同时

Subscribe to the AI Search Newsletter