MiniCPM-V 4.6

新

Free 视觉开源

网站推广

关键功能

支持紧凑的多模态模型中的图像、多图像和视频理解。

将 SigLIP2-400M 视觉编码与 Qwen3.5-0.8B 语言模型相结合。

使用混合 4 倍和 16 倍视觉令牌压缩来控制速度和准确性。

使用 LLaVA-UHD v4 技术将视觉编码 FLOP 减少 50% 以上。

支持在iOS、Android、HarmonyOS设备上部署。

适用于推理框架，包括 vLLM、SGLang、llama.cpp 和 Ollama。

提供跨格式的量化变体，例如 GGUF、BNB、AWQ 和 GPTQ。

目标是高效的视觉推理、OCR、视频 QA 和移动多模式助手。

该架构基于用于视觉的 SigLIP2-400M 和 Qwen3.5-0.8B 语言模型，具有混合 4 倍和 16 倍视觉令牌压缩，可实现灵活的精度与速度权衡。它采用了 LLaVA-UHD v4 的技术，可将视觉编码 FLOP 减少 50% 以上，从而比同类小型模型提高吞吐量。该版本还支持主流部署堆栈，例如 vLLM、SGLang、llama.cpp、Ollama、SWIFT 和 LLaMA-Factory。

MiniCPM-V 4.6 对于构建设备上助手、文档理解工具、视觉 QA、视频分析、机器人感知原型和私有多模式应用程序的开发人员非常有用。其广泛的平台覆盖 iOS、Android 和 HarmonyOS，使其与移动人工智能尤其相关。由于 Hugging Face 上有 Apache 风格的许可证提供模型文件和适配资源，因此它被列为免费开源模型。

在您的网站添加此徽章，以获得更多点赞并登上搜索结果顶部！

MiniCPM-V 4.6

关键功能

Subscribe to the AI Search Newsletter