操作指南强调简洁性,只需要一个清晰的音频片段——介于 5 到 30 秒之间——来捕捉必要的语音特征、音调和节奏。用户可以选择上传 MP3、WAV 或 M4A 等常见格式的现有文件,或者直接在浏览器界面中录制自己的声音以供即时使用。成功上传源材料后,用户输入所需的脚本。系统然后处理此信息,部署其先进的建模技术,将输入文本编织成完全模仿所提供的语音样本的新语音输出。一个关键步骤允许即时预览,确保用户在最终文件可供下载之前感到满意。
该服务的一个突出能力是其跨语言合成的潜力。使用一种语言上传语音样本的用户可以用多种其他语言(如英语和中文)生成合成语音,在语言界限上保留其原始声音的独特音色。虽然免费套餐实现了显著的相似度,但其底层技术足够强大,可以为个人项目、旁白或重新录制不切实际的内容创建处理文本到语音生成。用户应注意,虽然鼓励免费进行个人、非商业用途,但商业权利和增强的准确性级别保留给付费专业套餐。

