关键功能

多方对话
长格式音频生成
高保真音频
资源高效推理
在生成逼真且情感丰富的声音方面表现领先
开源
经过超过 1000 万小时的音频数据训练
采用创新的 Dual-FFN 架构

Higgs Audio V2 代表了音频 AI 功能的重大飞跃。它支持多说话人对话、长篇音频生成和高保真音频。该模型使用 BosonAI 的 ASR 和 LLM 模型,在超过 1000 万小时的海量自注释音频数据语料库上进行训练。 Higgs Audio V2 采用创新的 Dual-FFN 架构,能够同时处理文本和音频 token。此外,tokenizer 还针对音频的语义和声学特性提供了专门的表征。


Higgs Audio V2 现已开源,使其成为首个在多说话人、逼真且情感丰富的语音生成方面表现卓越的开源大规模音频模型。它为开发者、创意人员和研究人员打开了构建逼真对话代理、有声读物、播客等内容的大门。Higgs Audio V2 已达到最佳性能,在 EmergentTTS-Eval 测试中,情绪测试胜率为 75.7%,问题测试胜率为 55.7%,击败了 GPT-4o-mini-tts。该模型可在 GitHub 上克隆,也可通过在线演示或 HuggingFace Space 进行试用。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!