关键功能

用于音频生成和编辑的思路链(CoT)推理
逐步、交互式地生成和编辑视频音频
语义连贯的音景的基础拟音生成
通过精确的用户交互实现以对象为中心的交互式改进
通过自然语言指令引导的有针对性的编辑
用于上下文对齐 CoT 推理的多模态大型语言模型
用于音频生成和编辑的统一音频基础模型
带有结构化推理注释的 AudioCoT 数据集

ThinkSound 在视频转音频生成方面,在音频指标和 CoT 指标上均达到了最佳性能,并在发行外 Movie Gen Audio 基准测试中表现出色。该框架在大多数客观指标和所有主观指标上均优于所有基准,并且与最强大的基准相比,在音频质量和语义对齐方面实现了显著的改进。 ThinkSound 还推出了 AudioCoT,这是一个包含结构化推理注释的综合数据集,旨在建立视觉内容、文本描述和声音合成之间的联系。


ThinkSound 的有效性通过全面的消融研究得到证明,这些研究调查了框架中每个组件的贡献,并验证了设计选择的有效性。这些研究重点关注文本编码策略和多模态集成机制,并表明 CoT 推理显著提高了音频保真度,而将 CLIP 的对比特征与 T5 的上下文推理相结合可以进一步提升性能。该框架还比较了三种模型大小,结果表明 Large 模型在所有指标上均取得了最佳性能。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!