VibeVoice-ASR 是一个统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频，生成包含“谁 (Who)”、“何时 (When)”和“何事 (What)”的结构化转录。它支持自定义热词和 50 多种语言，使其成为各种应用的强大工具。该模型联合执行 ASR、说话人分离和时间戳标记，生成一个指示谁在何时说了什么的结构化输出。VibeVoice-AS

VibeVoice-ASR | 寻找最新最热门的语音AI | 浏览最全面的AI数据库

VibeVoice-ASR 是一个统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频，生成包含“谁 (Who)”、“何时 (When)”和“何事 (What)”的结构化转录。它支持自定义热词和 50 多种语言，使其成为各种应用的强大工具。该模型联合执行 ASR、说话人分离和时间戳标记，生成一个指示谁在何时说了什么的结构化输出。 VibeVoice-ASR 接受最长 60 分钟的连续音频输入，令牌长度在 64K 以内，确保在整个小时内保持一致的说话人跟踪和语义连贯性。它还支持自定义热词，这可以显著提高特定领域内容的准确性。该模型不需要明确的语言设置，并且原生支持在话语内和话语间进行代码切换，使其成为多语言应用的通用工具。 VibeVoice-ASR 的模型大小为 90 亿参数，使用 BF16 张量类型。上个月下载量超过 111,610 次，并根据 MIT 许可证授权。该模型未由任何推理提供商部署，但可用于语音转文本、说话人分离和时间戳标记等各种应用。它对于从事语音识别和自然语言处理任务的研究人员和开发人员来说是一个宝贵的工具。

VibeVoice-ASR

关键功能

Subscribe to the AI Search Newsletter