IndexTTS2 在情感表达和说话人身份之间实现了解耦,能够独立控制音色和情感。该系统整合了 GPT 的潜在表示,并设计了一种新颖的三阶段训练范式来提高生成语音的稳定性。此外,还使用基于文本描述的软指令机制来引导具有所需情感方向的语音生成。这使得语音合成更加自然和富有表现力。
IndexTTS 是一个高度先进的文本到语音系统,可以准确地重建目标音色并完美地再现指定的语调。该系统设计得非常高效,可用于各种应用,包括视频配音和声音克隆。该系统也是高度可定制的,允许用户调整设置以启用 FP16 推理和 DeepSpeed 加速等功能。

