关键功能

多模态输入处理:图像、视频和文本
密集和专家混合(MoE)架构,支持可扩展部署
视觉智能体,可操作PC/移动端GUI并调用工具
视觉编码能力,可从视觉内容生成Draw.io/HTML/CSS/JS
先进的空间感知和2D/3D地面定位,用于推理
原生256K上下文长度,可扩展至100万Token
增强的OCR支持32种语言,具有强大的文档解析能力
无缝的文本-视觉融合,实现无损理解
增强的STEM和数学推理能力
灵活的思维(Thinking)和非思维(Non-Thinking)模式,用于任务特定的响应控制

Qwen3-VL模型提供密集(Dense)和专家混合(Mixture of Experts, MoE)两种架构,使其能够从边缘设备高效扩展到云环境。它具有一个视觉智能体(Visual Agent),能够通过识别UI元素、理解其功能并通过工具调用来执行任务,从而操作PC和移动设备的图形用户界面。该模型的视觉编码功能使其能够直接从视觉媒体生成图表和代码,例如Draw.io图表和HTML/CSS/JS代码,极大地提高了创意和开发工作流程的生产力。


Qwen3-VL的技术进步包括改进的空间感知和3D地面定位(grounding),以增强对物体位置和视角的推理能力,以及光学字符识别(OCR)能力的强大扩展,支持32种语言。这使得模型能够准确读取和理解图像和文档中复杂、低质量或罕见的文本内容。Qwen3-VL还支持原生的256K长上下文长度,并可扩展至100万个Token,使其能够处理整本书籍或延长的视频,并实现精确的内容召回和二次索引,以提高导航和可搜索性。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!