关键功能

支持紧凑的多模态模型中的图像、多图像和视频理解。
将 SigLIP2-400M 视觉编码与 Qwen3.5-0.8B 语言模型相结合。
使用混合 4 倍和 16 倍视觉令牌压缩来控制速度和准确性。
使用 LLaVA-UHD v4 技术将视觉编码 FLOP 减少 50% 以上。
支持在iOS、Android、HarmonyOS设备上部署。
适用于推理框架,包括 vLLM、SGLang、llama.cpp 和 Ollama。
提供跨格式的量化变体,例如 GGUF、BNB、AWQ 和 GPTQ。
目标是高效的视觉推理、OCR、视频 QA 和移动多模式助手。

该架构基于用于视觉的 SigLIP2-400M 和 Qwen3.5-0.8B 语言模型,具有混合 4 倍和 16 倍视觉令牌压缩,可实现灵活的精度与速度权衡。它采用了 LLaVA-UHD v4 的技术,可将视觉编码 FLOP 减少 50% 以上,从而比同类小型模型提高吞吐量。该版本还支持主流部署堆栈,例如 vLLM、SGLang、llama.cpp、Ollama、SWIFT 和 LLaMA-Factory。


MiniCPM-V 4.6 对于构建设备上助手、文档理解工具、视觉 QA、视频分析、机器人感知原型和私有多模式应用程序的开发人员非常有用。其广泛的平台覆盖 iOS、Android 和 HarmonyOS,使其与移动人工智能尤其相关。由于 Hugging Face 上有 Apache 风格的许可证提供模型文件和适配资源,因此它被列为免费开源模型。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!