Higgs Audio V2 是一个强大的音频基础模型，已基于超过 1000 万小时的音频数据和丰富的文本数据进行预训练。得益于其对语言和声学的深度理解，它在富有表现力的音频生成方面表现出色。这意味着您现在可以专注于告诉模型您希望它如何呈现对话，或者您可以完全信任它能够独立提供极其逼真的音频。Higgs Audio V2 在 Seed-TTS Eval 和情

Higgs Audio V2 | 寻找最新最热门的声音的AI | 浏览最全面的AI数据库

Higgs Audio V2 是一个强大的音频基础模型，已基于超过 1000 万小时的音频数据和丰富的文本数据进行预训练。得益于其对语言和声学的深度理解，它在富有表现力的音频生成方面表现出色。这意味着您现在可以专注于告诉模型您希望它如何呈现对话，或者您可以完全信任它能够独立提供极其逼真的音频。Higgs Audio V2 在 Seed-TTS Eval 和情感语音数据集 (ESD) 等传统 TTS 基准测试中实现了卓越的性能。 \nHiggs Audio V2 代表了音频 AI 功能的重大飞跃。它支持多说话人对话、长篇音频生成和高保真音频。该模型使用 BosonAI 的 ASR 和 LLM 模型，在超过 1000 万小时的海量自注释音频数据语料库上进行训练。 Higgs Audio V2 采用创新的 Dual-FFN 架构，能够同时处理文本和音频 token。此外，tokenizer 还针对音频的语义和声学特性提供了专门的表征。 \nHiggs Audio V2 现已开源，使其成为首个在多说话人、逼真且情感丰富的语音生成方面表现卓越的开源大规模音频模型。它为开发者、创意人员和研究人员打开了构建逼真对话代理、有声读物、播客等内容的大门。Higgs Audio V2 已达到最佳性能，在 EmergentTTS-Eval 测试中，情绪测试胜率为 75.7%，问题测试胜率为 55.7%，击败了 GPT-4o-mini-tts。该模型可在 GitHub 上克隆，也可通过在线演示或 HuggingFace Space 进行试用。

Higgs Audio V2

关键功能

Subscribe to the AI Search Newsletter