ThinkSound 在视频转音频生成方面,在音频指标和 CoT 指标上均达到了最佳性能,并在发行外 Movie Gen Audio 基准测试中表现出色。该框架在大多数客观指标和所有主观指标上均优于所有基准,并且与最强大的基准相比,在音频质量和语义对齐方面实现了显著的改进。 ThinkSound 还推出了 AudioCoT,这是一个包含结构化推理注释的综合数据集,旨在建立视觉内容、文本描述和声音合成之间的联系。
ThinkSound 的有效性通过全面的消融研究得到证明,这些研究调查了框架中每个组件的贡献,并验证了设计选择的有效性。这些研究重点关注文本编码策略和多模态集成机制,并表明 CoT 推理显著提高了音频保真度,而将 CLIP 的对比特征与 T5 的上下文推理相结合可以进一步提升性能。该框架还比较了三种模型大小,结果表明 Large 模型在所有指标上均取得了最佳性能。