VoxCPM理解文本以推断和生成适当的韵律,从而产生具有卓越表现力和自然流畅性的语音。它能根据内容自发地调整说话风格,利用在海量180万小时双语语料库上训练出的高度匹配的语音表达。仅需一个简短的参考音频片段,VoxCPM就能进行准确的零样本语音克隆,不仅捕捉说话者的音色,还能捕捉到如口音、情感语调、节奏和语速等细微特征,从而创建出忠实而自然的复制品。
VoxCPM支持流式合成,在消费级NVIDIA RTX 4090 GPU上的实时因子(RTF)低至0.17,使其适用于实时应用。该模型效率高,可针对特定用例进行微调。在公开的零样本TTS基准测试中,VoxCPM取得了具有竞争力的结果,在语音质量和自然度方面优于其他模型。该模型还能够生成包括中文和英文在内的多种语言的语音。

