关键功能

上下文感知
富有表现力的语音生成
逼真的语音克隆
高效合成
流式合成
实时因子(RTF)低至0.17
对语音属性的细粒度控制
支持多种语言
端到端扩散自回归架构

VoxCPM理解文本以推断和生成适当的韵律,从而产生具有卓越表现力和自然流畅性的语音。它能根据内容自发地调整说话风格,利用在海量180万小时双语语料库上训练出的高度匹配的语音表达。仅需一个简短的参考音频片段,VoxCPM就能进行准确的零样本语音克隆,不仅捕捉说话者的音色,还能捕捉到如口音、情感语调、节奏和语速等细微特征,从而创建出忠实而自然的复制品。


VoxCPM支持流式合成,在消费级NVIDIA RTX 4090 GPU上的实时因子(RTF)低至0.17,使其适用于实时应用。该模型效率高,可针对特定用例进行微调。在公开的零样本TTS基准测试中,VoxCPM取得了具有竞争力的结果,在语音质量和自然度方面优于其他模型。该模型还能够生成包括中文和英文在内的多种语言的语音。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!