关键功能

3.41亿参数的文本转音频模型
经过优化,完全可在 Arm CPU 上运行
在 8 秒内生成简短的音频样本
保持输出质量并及时遵守
具有 341M 参数的轻量级架构
快速推理和生成
高效利用计算资源
适用于 Arm 驱动的设备上部署

Stable Audio Open Small 是市面上最快的立体声文本转音频模型,其轻量级架构拥有 3.41 亿个参数,而 Stable Audio Open 拥有 11 亿个参数。它经过优化,可在不到 8 秒的时间内,在手机上生成音频,并且生成和微调速度更快。该模型也非常高效,利用 Arm 的 KleidiAI 库在边缘更高效地运行,从而更快地提供结果,同时降低计算时间成本。


Stable Audio Open Small 非常适合使用文本提示生成简短的音频样本、音效和制作元素。它非常适合创建鼓循环、拟音、乐器重复乐段和环境纹理。该模型体积小巧,推理速度快,非常适合在 Arm 驱动的智能手机和边缘设备上进行设备端部署,因为这些设备注重实时生成和响应能力。通过使用不同的模型大小,组织可以将工作负载分配给最适合其用例的处理器。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!