寻找最新最佳的识别软件人工智能。浏览最全面的AI数据库,每日持续更新。
最新
VibeVoice-ASR 是一个统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频,生成包含“谁 (Who)”、“何时 (When)”和“何事 (What)”的结构化转录。它支持自定义热词和 50 多种语言,使其成为各种应用的强大工具。该模型联合执行 ASR、说话人分离和时间戳标记,生成一个指示谁在何时说了什么的结构化输出。