关键功能

用于多说话人对话生成长篇流式 TTS 系统
支持多种语言,包括英语、中文、日语、韩语、法语、德语和俄语
超低延迟,采用 12.5Hz 流式语音分词器
双 Transformer 架构,实现灵活的逐句生成
在独白和对话测试中均具有高相似度和低 WER/CER
随机音色生成,用于创建 ASR/语音交互数据
零样本语音克隆,用于跨语言和代码切换场景
Web UI 工具,用于轻松进行对话生成

该系统建立在新的 12.5Hz 流式语音分词器之上,具有超低延迟,并采用双 Transformer 架构,对文本-语音交错序列进行操作,从而实现灵活的逐句生成并降低首包延迟。具体来说,在 L20 GPU 上,首包延迟低至 140 毫秒,同时保持高质量的音频输出。该系统在独白和对话测试中均实现了高相似度和低 WER/CER。


FireRedTTS-2 有助于创建 ASR/语音交互数据,并具有随机音色生成功能。该系统可用于播客生成、聊天机器人开发和语言学习等各种应用。该系统还支持用于跨语言和代码切换场景的零样本语音克隆。此外,该系统提供了一个 Web UI 工具,用于轻松进行对话生成,并同时支持语音克隆和随机语音。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!