关键功能

20 亿参数的完全连续自回归文本转语音系统。
使用语义编码器、LLM 和自回归流匹配声学头。
运行在 48 kHz AudioVAE 之上,流程中不使用离散 token。
在中文、英文和多语言基准上报告了较强的 WER 与说话人相似度指标。
支持单语与跨语种语音克隆示例。
包含上下文感知的表达式语音克隆演示。
提供 GitHub、Hugging Face 集合和 Hugging Face Space 链接。
项目页面附带 Apache-2.0 许可证链接。

项目页面强调它在中文、英文、困难中文评测、多语言说话人相似度、语音克隆和情感表达等方面取得了强基准结果。页面还提供了单语、跨语种以及上下文感知表达式语音克隆的音频示例。


dots.tts 适合希望获得开源高质量 TTS、语音克隆和多语言能力的语音 AI 研究者与开发者。公开的 GitHub、Hugging Face 集合和演示空间链接使其便于查看模型资源并试用示例。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!