VibeVoice-Realtime 是一款轻量级的实时文本转语音模型，支持流式文本输入和强大的长篇语音生成。它可用于构建实时 TTS 服务、叙述实时数据流，并允许不同的模型从其第一个 token 开始发声。该模型在大约 300 毫秒内产生初始可听语音，使其适用于实时应用。该模型采用交错的、带窗口的设计，在持续进行基于扩散的声学潜在生成（基于先前的上下文）的

VibeVoice-Realtime-0.5B | 寻找最新最热门的语音AI | 浏览最全面的AI数据库

VibeVoice-Realtime 是一款轻量级的实时文本转语音模型，支持流式文本输入和强大的长篇语音生成。它可用于构建实时 TTS 服务、叙述实时数据流，并允许不同的模型从其第一个 token 开始发声。该模型在大约 300 毫秒内产生初始可听语音，使其适用于实时应用。 该模型采用交错的、带窗口的设计，在持续进行基于扩散的声学潜在生成（基于先前的上下文）的同时，对传入的文本块进行增量编码。它仅依赖于一个高效的声学分词器，该分词器以超低帧率运行，实现了从 24kHz 输入到 3200 倍的下采样。虽然主要为英语构建，但该模型表现出一定程度的多语言能力，并且在某些语言中表现良好。 VibeVoice-Realtime 已在各种基准测试上进行了评估，包括 LibriSpeech test-clean 数据集和 SEED test-en 数据集，在短句基准测试中表现令人满意，并专注于长篇语音生成。该模型仅供研究和开发目的使用，建议用户披露 AI 生成内容的用途，并负责任地使用该模型，确保遵守适用的法律法规。

VibeVoice-Realtime-0.5B

关键功能

Subscribe to the AI Search Newsletter