Qwen3-VL模型提供密集(Dense)和专家混合(Mixture of Experts, MoE)两种架构,使其能够从边缘设备高效扩展到云环境。它具有一个视觉智能体(Visual Agent),能够通过识别UI元素、理解其功能并通过工具调用来执行任务,从而操作PC和移动设备的图形用户界面。该模型的视觉编码功能使其能够直接从视觉媒体生成图表和代码,例如Draw.io图表和HTML/CSS/JS代码,极大地提高了创意和开发工作流程的生产力。
Qwen3-VL的技术进步包括改进的空间感知和3D地面定位(grounding),以增强对物体位置和视角的推理能力,以及光学字符识别(OCR)能力的强大扩展,支持32种语言。这使得模型能够准确读取和理解图像和文档中复杂、低质量或罕见的文本内容。Qwen3-VL还支持原生的256K长上下文长度,并可扩展至100万个Token,使其能够处理整本书籍或延长的视频,并实现精确的内容召回和二次索引,以提高导航和可搜索性。

