关键功能

针对富有表现力和迭代的音频编辑进行了优化的 30 亿参数 LLM
捕获语言和韵律/情感信息的双码本分词器
在 200,000 小时语音数据上训练,以实现自然度和音色准确性
通过自然语言指令支持零样本 TTS 和灵活编辑
训练后包括监督微调和强化学习优化
开源,代码和检查点可用于开发人员定制
能够在标记级别编辑语音录音,而无需重新录制
可以改进来自闭源 TTS 系统的语音并集成到工作流程中

该模型采用了双重训练方法,首先进行监督微调,以在类似聊天的提示格式下将系统对齐以进行零样本 TTS 和编辑任务,然后通过近端策略优化 (Proximal Policy Optimization) 进行强化学习,以提高控制保真度。它在约 200,000 小时的高质量语音数据上进行了训练,这提高了其自然度、发音和音色相似性。Step Audio EditX 的突出之处在于它能够处理离散音频标记,并以一种感觉上与重写文本一样直接和直观的方式执行编辑,使其成为可控语音合成和闭源 TTS 系统音频后期处理的突破性进展。


Step Audio EditX 的开源发布为需要高灵活度音频编辑工具的内容创作者、营销人员和开发人员带来了显著的好处。对于播客、广告商或视频制作者来说,它可以实现在后期制作中进行调整,例如使句子更平静、添加停顿或更改说话者的情绪,而无需重新录制。对于工程师和创始人来说,它可以集成到内容创作管道、配音工作流程或对话式 AI 解决方案中,支持本地微调和快速部署,且没有许可限制。该模型创新的设计和易于访问的架构使富有表现力的音频编辑民主化,并降低了音频 AI 研究中实验的门槛。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!