该架构基于用于视觉的 SigLIP2-400M 和 Qwen3.5-0.8B 语言模型,具有混合 4 倍和 16 倍视觉令牌压缩,可实现灵活的精度与速度权衡。它采用了 LLaVA-UHD v4 的技术,可将视觉编码 FLOP 减少 50% 以上,从而比同类小型模型提高吞吐量。该版本还支持主流部署堆栈,例如 vLLM、SGLang、llama.cpp、Ollama、SWIFT 和 LLaMA-Factory。
MiniCPM-V 4.6 对于构建设备上助手、文档理解工具、视觉 QA、视频分析、机器人感知原型和私有多模式应用程序的开发人员非常有用。其广泛的平台覆盖 iOS、Android 和 HarmonyOS,使其与移动人工智能尤其相关。由于 Hugging Face 上有 Apache 风格的许可证提供模型文件和适配资源,因此它被列为免费开源模型。

