关键功能

具有自然和富有表现力的语音质量的文本转语音
支持超过 50 种情感和音调标记,实现丰富的声音表达
基于短音频样本的零样本和少样本语音克隆
对包括主要全球语言在内的 13 种语言的多语言支持
通过 API 对语音参数进行实时控制
创新的双自回归架构,实现高效生成
提供完整云端版本和轻量级开源版本

OpenAudio S1 的一个突出特点是其全面的情感和音调控制,支持超过 50 种情感和音调标记,如愤怒、快乐、悲伤、耳语和同情。用户可以通过简单的文本命令调节语速、音量、停顿以及笑声或耳语等各种表现效果。该模型的指令遵循能力实现了精确定制,允许开发人员通过 API 实时控制重音和节奏,使其能够满足各种语音生成需求。


OpenAudio S1 支持零样本和少样本语音克隆,仅需 10 到 30 秒的音频样本,即可在一分钟内快速生成高保真克隆,非常适合个性化音频体验或名人声音模拟。该架构采用了创新的双自回归设计,结合了快速和慢速 Transformer 模块,以实现稳定高效的语音生成。它支持 13 种语言,包括英语、中文、日语、法语和德语,具有出色的准确性和低延迟性能,适用于云部署或本地使用。该模型有两种版本:通过云服务提供的完整 40 亿参数 S1 模型,以及专为研究和教育用途优化的轻量级开源 S1-mini 版本。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!