关键功能

原生支持文本、图像、音频和视频输入,并以文本和语音提供实时流式响应。
多语言支持:119 种文本语言,19 种语音输入语言和 10 种语音输出语言。
基于 MoE 的 Thinker–Talker 架构,采用多码本设计以实现最小延迟。
在多个音频和视频基准测试中达到最先进的性能,包括音频理解和语音对话。
通过系统提示进行灵活定制,以实现定制化的交互和用例。
详细的音频字幕模型,具有低幻觉率,可提供精确的音频描述。
多种部署方式:Hugging Face Transformers、vLLM、Docker 容器和网页 UI 演示。
支持批处理和 API 使用,适用于可扩展的生产级应用。

Qwen3-Omni 支持 119 种文本语言以及 19 种语音输入语言和 10 种语音输出语言,在多语言通信场景中表现出色。它采用了独特的基于 MoE 的 Thinker–Talker 设计和 AuT 预训练,使其具备强大的通用表示能力,并包含多码本设计以最小化推理延迟。该模型在众多音频和视频基准测试中取得了领先排名,可与领先的闭源系统相媲美。其实时音视频交互能力确保了对话场景中低延迟、自然的轮流进行。


Qwen3-Omni 通过系统提示提供灵活的控制,允许针对特定的用户需求和应用进行定制。它具有高度详细的音频字幕模型,可以生成精确且低幻觉的音频输入描述,填补了开源多模态 AI 工具中的空白。该模型生态系统包括用于指导性任务、思考和推理过程以及下游微调字幕应用的各种专业版本。部署选项包括 Hugging Face Transformers、vLLM 推理、Docker 镜像以及一个网页 UI 演示,供用户在本地或通过 API 探索其丰富多模态能力。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!