Higgs Audio V2 代表了音频 AI 功能的重大飞跃。它支持多说话人对话、长篇音频生成和高保真音频。该模型使用 BosonAI 的 ASR 和 LLM 模型,在超过 1000 万小时的海量自注释音频数据语料库上进行训练。 Higgs Audio V2 采用创新的 Dual-FFN 架构,能够同时处理文本和音频 token。此外,tokenizer 还针对音频的语义和声学特性提供了专门的表征。
Higgs Audio V2 现已开源,使其成为首个在多说话人、逼真且情感丰富的语音生成方面表现卓越的开源大规模音频模型。它为开发者、创意人员和研究人员打开了构建逼真对话代理、有声读物、播客等内容的大门。Higgs Audio V2 已达到最佳性能,在 EmergentTTS-Eval 测试中,情绪测试胜率为 75.7%,问题测试胜率为 55.7%,击败了 GPT-4o-mini-tts。该模型可在 GitHub 上克隆,也可通过在线演示或 HuggingFace Space 进行试用。