该模型是 LTX-2.3 3.3B 纯音频模型的 IC-LoRA 微调,使用具有来自 Gemma 3 12B 文本嵌入的流量匹配和调节的扩散变压器。这种架构通过产生富有表现力的性能线索和戏剧性的转变,使模型能够超越传统的中性 TTS 进行操作。它是在 LTX-2 社区许可证下基于 LTX-2 构建的,包括模型、演示空间和代码链接。
Dramabox 对于音频戏剧、游戏、动画、富有表现力的语音助手、角色原型设计和合成对话数据集非常有用。它的主要价值是可控性:用户可以编写一个提示,不仅指定所说的内容,还指定如何执行。由于 Hugging Face 页面公开了模型资源和代码链接,因此此列表将其标记为免费的开源音频模型。

