该模型提取自 LTX 2.3,并使用提示驱动的音频扩散来合成语音和表演细节。几秒钟的参考音频可以提供目标语音身份,而生成提示则指定情绪、交付、场景上下文和表达行为。这在技术上与传统 TTS 系统不同,传统 TTS 系统通常将情感范围锁定到参考录音或生成平淡、中性的语音。
Scenema Audio 对于创意配音、游戏、动画、音频戏剧、本地化、合成表演和富有表现力的语音代理原型设计非常有用。它提供托管的 Scenema 产品访问以及音频模型生态系统的 GitHub 和 Hugging Face 链接。由于该网站包括产品导航和定价,同时还公开公共研究/模型链接,因此该列表将其标记为免费增值。

