关键功能

统一的语音转文本模型
一次性处理长达 60 分钟的音频
支持自定义热词和 50 多种语言
联合执行 ASR、说话人分离和时间戳标记
生成包含谁、何时和何事的结构化输出
无需明确的语言设置
原生支持话语内和话语间的代码切换
模型大小为 90 亿参数,使用 BF16 张量类型

VibeVoice-ASR 接受最长 60 分钟的连续音频输入,令牌长度在 64K 以内,确保在整个小时内保持一致的说话人跟踪和语义连贯性。它还支持自定义热词,这可以显著提高特定领域内容的准确性。该模型不需要明确的语言设置,并且原生支持在话语内和话语间进行代码切换,使其成为多语言应用的通用工具。


VibeVoice-ASR 的模型大小为 90 亿参数,使用 BF16 张量类型。上个月下载量超过 111,610 次,并根据 MIT 许可证授权。该模型未由任何推理提供商部署,但可用于语音转文本、说话人分离和时间戳标记等各种应用。它对于从事语音识别和自然语言处理任务的研究人员和开发人员来说是一个宝贵的工具。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!