VibeVoice-Realtime-0.5B

关键功能

轻量级实时文本转语音模型
支持流式文本输入
强大的长篇语音生成
单说话人支持
高效的声学分词器
超低帧率运行
多语言能力
实时 TTS 服务支持

该模型采用交错的、带窗口的设计,在持续进行基于扩散的声学潜在生成(基于先前的上下文)的同时,对传入的文本块进行增量编码。它仅依赖于一个高效的声学分词器,该分词器以超低帧率运行,实现了从 24kHz 输入到 3200 倍的下采样。虽然主要为英语构建,但该模型表现出一定程度的多语言能力,并且在某些语言中表现良好。


VibeVoice-Realtime 已在各种基准测试上进行了评估,包括 LibriSpeech test-clean 数据集和 SEED test-en 数据集,在短句基准测试中表现令人满意,并专注于长篇语音生成。该模型仅供研究和开发目的使用,建议用户披露 AI 生成内容的用途,并负责任地使用该模型,确保遵守适用的法律法规。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!