Stable Audio Open Small 是市面上最快的立体声文本转音频模型,其轻量级架构拥有 3.41 亿个参数,而 Stable Audio Open 拥有 11 亿个参数。它经过优化,可在不到 8 秒的时间内,在手机上生成音频,并且生成和微调速度更快。该模型也非常高效,利用 Arm 的 KleidiAI 库在边缘更高效地运行,从而更快地提供结果,同时降低计算时间成本。
Stable Audio Open Small 非常适合使用文本提示生成简短的音频样本、音效和制作元素。它非常适合创建鼓循环、拟音、乐器重复乐段和环境纹理。该模型体积小巧,推理速度快,非常适合在 Arm 驱动的智能手机和边缘设备上进行设备端部署,因为这些设备注重实时生成和响应能力。通过使用不同的模型大小,组织可以将工作负载分配给最适合其用例的处理器。