ThinkSound

Paid 声音的视频编辑

网站推广

关键功能

用于音频生成和编辑的思路链（CoT）推理

逐步、交互式地生成和编辑视频音频

语义连贯的音景的基础拟音生成

通过精确的用户交互实现以对象为中心的交互式改进

通过自然语言指令引导的有针对性的编辑

用于上下文对齐 CoT 推理的多模态大型语言模型

用于音频生成和编辑的统一音频基础模型

带有结构化推理注释的 AudioCoT 数据集

ThinkSound 在视频转音频生成方面，在音频指标和 CoT 指标上均达到了最佳性能，并在发行外 Movie Gen Audio 基准测试中表现出色。该框架在大多数客观指标和所有主观指标上均优于所有基准，并且与最强大的基准相比，在音频质量和语义对齐方面实现了显著的改进。 ThinkSound 还推出了 AudioCoT，这是一个包含结构化推理注释的综合数据集，旨在建立视觉内容、文本描述和声音合成之间的联系。

ThinkSound 的有效性通过全面的消融研究得到证明，这些研究调查了框架中每个组件的贡献，并验证了设计选择的有效性。这些研究重点关注文本编码策略和多模态集成机制，并表明 CoT 推理显著提高了音频保真度，而将 CLIP 的对比特征与 T5 的上下文推理相结合可以进一步提升性能。该框架还比较了三种模型大小，结果表明 Large 模型在所有指标上均取得了最佳性能。

在您的网站添加此徽章，以获得更多点赞并登上搜索结果顶部！

ThinkSound

关键功能

Subscribe to the AI Search Newsletter