该模型采用交错的、带窗口的设计,在持续进行基于扩散的声学潜在生成(基于先前的上下文)的同时,对传入的文本块进行增量编码。它仅依赖于一个高效的声学分词器,该分词器以超低帧率运行,实现了从 24kHz 输入到 3200 倍的下采样。虽然主要为英语构建,但该模型表现出一定程度的多语言能力,并且在某些语言中表现良好。
VibeVoice-Realtime 已在各种基准测试上进行了评估,包括 LibriSpeech test-clean 数据集和 SEED test-en 数据集,在短句基准测试中表现令人满意,并专注于长篇语音生成。该模型仅供研究和开发目的使用,建议用户披露 AI 生成内容的用途,并负责任地使用该模型,确保遵守适用的法律法规。

