/ 多模态 AI

多模态 AI AI

寻找最新最佳的多模态 AI人工智能。浏览最全面的AI数据库，每日持续更新。

PerceptionDLM

PerceptionDLM 是一种为高效并行区域感知优化的多模态扩散语言模型。它旨在解决自回归式多模态大模型按顺序描述多个图像区域、因而随着区域数量增加扩展性较差的问题。

该模型建立在 PerceptionDLM-Base 之上，结合视觉编码器和离散扩散语言模型骨干。高效并行提示将多个区域掩码打包进单个提示中，而结构化注意力掩码则

Wan Streamer v0.1

Wan Streamer v0.1 是一种原生流式、端到端的交互式基础模型，用于实时音视频交互。它能够在单个 Transformer 中完成听、看、思考、说话和生成同步视频响应，目标是实现全双工交互，而不是依赖分离的 ASR、LLM、TTS 和数字人模块流水线。

该模型将语言、音频和视频表示为由块因果注意力协调的交错输入和输出 t

MiniMax M3

NewFree多模态开源

MiniMax M3 是 MiniMaxAI 在 Hugging Face 上发布的多模态模型，面向图文到文本、智能体、编码、视频和对话等用例。模型卡将其标注为基于 Transformer 的 safetensors 发布版本，并带有自定义代码和 minimax_m3_vl 架构。

页面提供了 Transformers 的使用示例

Lance

NewFree多模态开源

Lance 是一种原生统一多模态模型，专为在一个紧凑的 3B 主动参数系统中理解、生成和编辑图像和视频而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合，使该工作流程更加实用。 Lance 没有提供通用演示，而是针对具体的能力差距，为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。

Step3-VL-10B

NewPaid智能多模态

Step3-VL-10B 是一款紧凑而前沿的多模态智能模型，旨在重新定义效率与性能之间的平衡。仅拥有 100 亿参数，它在视觉感知、复杂推理和人类对齐方面取得了卓越的成果。该模型超越了同类模型，并能与更大的模型竞争，是该领域的重大突破。

Step3-VL-10B 的成功归功于其两大核心设计：高质量的多模态预训练和大规模多模态强化学习

JavisGPT

NewFreemium多模态媒体生成

JavisGPT是一个统一的多模态大型语言模型，专为联合音视频理解和生成任务而设计。它专注于同步发声视频场景，其中视觉流和音频轨道必须以时间对齐的方式一起被理解。系统架构将专用的音视频输入编码器与语言模型核心以及一个能够生成连贯、同步媒体输出的生成器连接起来。

通过整合独立的音频和视频输入，JavisGPT可以推理跨越这两种模态的复

Uni-MoE-2.0-Omni

NewFree多模态大模型

Uni-MoE-2.0-Omni 是一个基于强大的 Qwen2.5-7B 核心构建的先进全模态大型模型。它代表了对先前版本的重大重建和改进，融入了旨在增强多模态理解和生成能力的新架构和训练范式。该模型无缝集成了多种模态，如音频、语音、图像、文本和视频，能够对各种类型的输入数据进行全面的处理。

该模型引入了多项关键进步，包括统一的语音

Qwen3-Omni

NewFree多模态语言模型

Qwen3-Omni 是一款前沿的多语言全模态基础模型，旨在原生处理文本、图像、音频和视频等广泛的输入。它不仅能以文本形式提供实时流式响应，还能以自然语音提供响应，为用户带来交互式、多功能的 AI 体验。该模型采用了先进的架构升级，旨在提高性能和效率，在多个模态上实现了最先进的结果，同时不牺牲单模态的文本和图像能力。

Qwen3-O

Qwen3-VL

NewFree多模态视觉语言模型

Qwen3-VL是阿里巴巴云计算Qwen团队开发的最新多模态大型语言模型系列。它代表了迄今为止Qwen系列中最强大的视觉语言模型，在文本理解、视觉感知和推理能力方面进行了全面升级。该模型可以处理和理解包括图像、视频和文本在内的各种输入，使其在多模态AI应用中具有高度的通用性。它支持深入的空间和视频动态理解、增强的智能体交互能力以及扩展的上下文长度，能够

Gemini 3

LHM (Large Animatable Human Reconstruction Model)

New重建3D人体建模

LHM 是一个突破性的模型，旨在通过单张图像快速、高保真地重建可动画的 3D 人体。它利用多模态 Transformer 架构，通过注意力机制有效地编码人体位置特征和图像特征，解决了分离几何形状、外观和变形的复杂挑战。这能够保留服装的几何形状和纹理细节，并通过 3D 高斯分布生成逼真的 3D 虚拟形象。该模型引入了一种头部特征金字塔编码方案，用于聚合头

Hunyuan3D-2

Google Gemini

AnyGPT

聊天多模态, 内容生成

AnyGPT 是一种先进的多模态语言模型，旨在处理和生成各种形式的数据，包括文本、语音、图像和音乐。AnyGPT 旨在弥合不同模态之间的差距，它利用离散表示法，使其能够无缝集成和理解多种类型的信息。这种能力使 AnyGPT 成为一种多功能工具，适用于从自然语言处理到内容生成和多媒体交互等各种应用。

AnyGPT 的核心功能围绕其

ImageBind by Meta

图片多模态, 零样本学习

ImageBind 由 Meta Research 开发，是一种突破性的 AI 模型，它为六种不同的模态创建了统一的嵌入空间：图像、文本、音频、深度、热成像和惯性测量单元 (IMU) 数据。ImageBind 于 2023 年 5 月发布，代表了多模态 AI 的重大进步，使机器能够以更接近人类感知的方式理解和连接各种感官输入中的信息。