OpenAudio S1 的一个突出特点是其全面的情感和音调控制,支持超过 50 种情感和音调标记,如愤怒、快乐、悲伤、耳语和同情。用户可以通过简单的文本命令调节语速、音量、停顿以及笑声或耳语等各种表现效果。该模型的指令遵循能力实现了精确定制,允许开发人员通过 API 实时控制重音和节奏,使其能够满足各种语音生成需求。
OpenAudio S1 支持零样本和少样本语音克隆,仅需 10 到 30 秒的音频样本,即可在一分钟内快速生成高保真克隆,非常适合个性化音频体验或名人声音模拟。该架构采用了创新的双自回归设计,结合了快速和慢速 Transformer 模块,以实现稳定高效的语音生成。它支持 13 种语言,包括英语、中文、日语、法语和德语,具有出色的准确性和低延迟性能,适用于云部署或本地使用。该模型有两种版本:通过云服务提供的完整 40 亿参数 S1 模型,以及专为研究和教育用途优化的轻量级开源 S1-mini 版本。

