该系统建立在新的 12.5Hz 流式语音分词器之上,具有超低延迟,并采用双 Transformer 架构,对文本-语音交错序列进行操作,从而实现灵活的逐句生成并降低首包延迟。具体来说,在 L20 GPU 上,首包延迟低至 140 毫秒,同时保持高质量的音频输出。该系统在独白和对话测试中均实现了高相似度和低 WER/CER。
FireRedTTS-2 有助于创建 ASR/语音交互数据,并具有随机音色生成功能。该系统可用于播客生成、聊天机器人开发和语言学习等各种应用。该系统还支持用于跨语言和代码切换场景的零样本语音克隆。此外,该系统提供了一个 Web UI 工具,用于轻松进行对话生成,并同时支持语音克隆和随机语音。

