该应用程序的模型大小很小,只有 1 亿参数,仅使用 2 个 CPU 核心。它可以流式传输音频,在 MacBook Air M4 上的速度约为实时速度的 6 倍,快于实时速度。Pocket TTS 还支持语音克隆,并提供一系列预制声音,包括 alba、marius 和 javert 等。
Pocket TTS 可以用作 Python 库,其功能可通过命令行界面或本地服务器访问。该应用程序有一个可通过 http://localhost:8000 访问的 Web 界面,允许用户输入文本并选择不同的声音。它还有一个 serve 命令,可以在请求之间将模型保留在内存中,从而比命令行更快。

