该模型采用了双重训练方法,首先进行监督微调,以在类似聊天的提示格式下将系统对齐以进行零样本 TTS 和编辑任务,然后通过近端策略优化 (Proximal Policy Optimization) 进行强化学习,以提高控制保真度。它在约 200,000 小时的高质量语音数据上进行了训练,这提高了其自然度、发音和音色相似性。Step Audio EditX 的突出之处在于它能够处理离散音频标记,并以一种感觉上与重写文本一样直接和直观的方式执行编辑,使其成为可控语音合成和闭源 TTS 系统音频后期处理的突破性进展。
Step Audio EditX 的开源发布为需要高灵活度音频编辑工具的内容创作者、营销人员和开发人员带来了显著的好处。对于播客、广告商或视频制作者来说,它可以实现在后期制作中进行调整,例如使句子更平静、添加停顿或更改说话者的情绪,而无需重新录制。对于工程师和创始人来说,它可以集成到内容创作管道、配音工作流程或对话式 AI 解决方案中,支持本地微调和快速部署,且没有许可限制。该模型创新的设计和易于访问的架构使富有表现力的音频编辑民主化,并降低了音频 AI 研究中实验的门槛。

