VoxCPM是一个新颖的无分词器文本到语音（TTS）系统，它重新定义了语音合成的真实感。通过在连续空间中建模语音，它克服了离散分词的限制，并实现了两大核心功能：上下文感知语音生成和逼真的零样本语音克隆。与将语音转换为离散令牌的主流方法不同，VoxCPM采用端到端的扩散自回归架构，直接从文本生成连续的语音表示。VoxCPM理解文本以推断和生成适当的韵律，从而产

VoxCPM | 寻找最新最热门的音频AI | 浏览最全面的AI数据库

VoxCPM是一个新颖的无分词器文本到语音（TTS）系统，它重新定义了语音合成的真实感。通过在连续空间中建模语音，它克服了离散分词的限制，并实现了两大核心功能：上下文感知语音生成和逼真的零样本语音克隆。与将语音转换为离散令牌的主流方法不同，VoxCPM采用端到端的扩散自回归架构，直接从文本生成连续的语音表示。 VoxCPM理解文本以推断和生成适当的韵律，从而产生具有卓越表现力和自然流畅性的语音。它能根据内容自发地调整说话风格，利用在海量180万小时双语语料库上训练出的高度匹配的语音表达。仅需一个简短的参考音频片段，VoxCPM就能进行准确的零样本语音克隆，不仅捕捉说话者的音色，还能捕捉到如口音、情感语调、节奏和语速等细微特征，从而创建出忠实而自然的复制品。 VoxCPM支持流式合成，在消费级NVIDIA RTX 4090 GPU上的实时因子（RTF）低至0.17，使其适用于实时应用。该模型效率高，可针对特定用例进行微调。在公开的零样本TTS基准测试中，VoxCPM取得了具有竞争力的结果，在语音质量和自然度方面优于其他模型。该模型还能够生成包括中文和英文在内的多种语言的语音。

VoxCPM

关键功能

Subscribe to the AI Search Newsletter