关键功能

生成具有及时控制的情感和表达方式的富有表现力的 TTS。
支持可选的 10 秒语音参考以进行语音克隆。
控制笑声、叹息、呼吸、停顿、过渡和表演风格。
作为 LTX-2.3 3.3B 纯音频模型的 IC-LoRA 微调而构建。
使用具有流量匹配的扩散变压器来生成音频。
Gemma 3 12B 文本嵌入的条件生成。
提供Hugging Face模型、demo Space、GitHub代码资源。
面向音频戏剧、游戏、动画、角色语音和表达助手。

该模型是 LTX-2.3 3.3B 纯音频模型的 IC-LoRA 微调,使用具有来自 Gemma 3 12B 文本嵌入的流量匹配和调节的扩散变压器。这种架构通过产生富有表现力的性能线索和戏剧性的转变,使模型能够超越传统的中性 TTS 进行操作。它是在 LTX-2 社区许可证下基于 LTX-2 构建的,包括模型、演示空间和代码链接。


Dramabox 对于音频戏剧、游戏、动画、富有表现力的语音助手、角色原型设计和合成对话数据集非常有用。它的主要价值是可控性:用户可以编写一个提示,不仅指定所说的内容,还指定如何执行。由于 Hugging Face 页面公开了模型资源和代码链接,因此此列表将其标记为免费的开源音频模型。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!