Qwen3-Omni 支持 119 种文本语言以及 19 种语音输入语言和 10 种语音输出语言,在多语言通信场景中表现出色。它采用了独特的基于 MoE 的 Thinker–Talker 设计和 AuT 预训练,使其具备强大的通用表示能力,并包含多码本设计以最小化推理延迟。该模型在众多音频和视频基准测试中取得了领先排名,可与领先的闭源系统相媲美。其实时音视频交互能力确保了对话场景中低延迟、自然的轮流进行。
Qwen3-Omni 通过系统提示提供灵活的控制,允许针对特定的用户需求和应用进行定制。它具有高度详细的音频字幕模型,可以生成精确且低幻觉的音频输入描述,填补了开源多模态 AI 工具中的空白。该模型生态系统包括用于指导性任务、思考和推理过程以及下游微调字幕应用的各种专业版本。部署选项包括 Hugging Face Transformers、vLLM 推理、Docker 镜像以及一个网页 UI 演示,供用户在本地或通过 API 探索其丰富多模态能力。

