寻找最新最佳的开源人工智能。浏览最全面的AI数据库,每日持续更新。
最新
MiniMax M3 是 MiniMaxAI 在 Hugging Face 上发布的多模态模型,面向图文到文本、智能体、编码、视频和对话等用例。模型卡将其标注为基于 Transformer 的 safetensors 发布版本,并带有自定义代码和 minimax_m3_vl 架构。
页面提供了 Transformers 的使用示例
OSCAR 是一个面向机器人领域的全具身、动作条件世界模型。该项目在 Cosmos-Predict2.5-2B 基础上进行微调,使用统一的 2D 运动学骨架条件来覆盖多种机器人具身形态和一个 MANO 手模型,并结合机器人遥操作与第一人称人类视频数据。
该模型旨在预测不同具身形态下、受动作条件控制的未来视觉观察。通过共享的 2D
Arbor 是一个面向自主研究的框架,核心是持久化的假设树迭代优化。它不会把每次 AI 研究尝试都视为孤立事件,而是保存分叉假设,把实验结果作为证据回流,并且只有在留出集结果支持时才提升改进。
该项目面向长周期研究循环,其中智能体会生成想法、运行实验、总结证据,并更新累积的假设树。页面链接了论文、GitHub 仓库、文档和在线演示
MilliVid 是一种围绕层级潜变量构建的长上下文视频生成方法,旨在实现长程一致性。它解决了传统扩散模型在生成大量帧时会快速形成过长 Transformer 序列、难以实用的问题。
该方法预训练一个层级自动编码器,将每帧压缩为多个 token 层级,然后通过由粗到细的 rollout 生成视频。与扁平潜表示相比,这让模型能在更紧
Surflo 是一种流匹配方法,用于从数量可变、无需位姿的图像中重建连贯的 3D 表面。它将所有输入视角融合为固定的全局潜状态,再以任意分辨率解码显式定向表面点。
系统采用基于 VGGT 的编码器、Perceiver 风格压缩器来生成全局状态,并通过逐点流匹配 ODE 解码。它加入基于渲染的通信引导,使独立流动的点仍属于同一个连贯
dots.tts 是一个 20 亿参数、完全连续、端到端的自回归文本转语音系统。其骨干结合了语义编码器、LLM 和一个作用于 48 kHz AudioVAE 之上的自回归流匹配声学头,整个流程不使用离散 token。
项目页面强调它在中文、英文、困难中文评测、多语言说话人相似度、语音克隆和情感表达等方面取得了强基准结果。页面还提供
MoVerse 是一种实时视频世界建模方法,可从单张窄视场图像构建可导航的 3D 世界。它将世界构建与观察渲染分离,使可复用的全景高斯骨架能够支持交互式视频漫游。
该流程先把输入图像扩展为重力对齐的 360 度全景图,再将其提升为 3D 高斯骨架,随后沿用户控制的相机轨迹渲染逼真的视频。项目页面报告在单张 RTX 4090 上可实
Actionable World Representation 通过 WorldString 展示,是一种用于构建物理对象神经数字孪生的方法。它从关键点条件 3D 建模中学习 token 分配和误差图,使对象几何能够真正用于机器人和仿真场景中的操作。
该项目面向关节式、蒙皮式、柔性、可变形以及机器人对象,页面展示了机器人手、SMP
SCAIL-2 是一个可控角色动画框架,可将驱动序列中的动作迁移到参考角色,而无需依赖骨架图或掩码等中间表示。它直接以驱动视频潜变量作为条件输入到潜空间视频扩散模型中,有助于保留仅依赖骨架管线容易丢失的视觉信息。
系统通过端到端的上下文内条件设计,统一了单角色动画、多角色动画、角色替换和零样本动画。项目页面介绍了特定模式的 RoP
i1 是普林斯顿推出的文生图扩散模型项目,重点在于用一种简单且完全开放的配方实现强图像生成能力。该工作研究建模与数据选择如何影响能力,最终形成一个在 1024 分辨率上评估的 30 亿参数模型。
项目研究了模型设计、文本与噪声条件、骨干架构、合成字幕、提示词改写、数据集混合以及训练与评估选择。它把开放性作为核心贡献之一,通过发布模
Flex4DHuman 是一种灵活的多视角视频扩散方法,用于 4D 人体重建。它仅依赖相对相机位姿条件、无需显式几何先验,就能将单目或稀疏多视角的动态人物视频转成同步的稠密多视角视频。
生成出的稠密多视角视频可进一步提升为动态 4D Gaussian splats,使该系统成为视频扩散与可重建 4D 人体资产之间的桥梁。页面链接了
VideoMDM 是一个基于扩散的框架,可在 2D 监督下生成 3D 人体动作。它直接从单目视频中提取的精确 2D 姿态学习 3D 人体动作先验,从而避免训练时依赖真实 3D 动作捕捉真值。
该方法使用预训练的 2D 到 3D 提升器作为带噪教师,对提升结果进行扩散,并通过 2D 重投影损失监督去噪。页面介绍了深度加权重投影、速度
DiffusionGemma 是 Google 推出的基于扩散的文本生成模型,被定位为标准自回归解码的超快替代方案。公告称,它通过并行细化文本而不是严格逐 token 生成,可实现最高 4 倍更快的文本生成。
该模型将扩散思想应用到语言上,从带噪或不完整的文本状态出发,逐步去噪得到最终答案。这改变了交互式助手、批量生成系统,以及需
MeshFlow 是一种高效的艺术化网格生成方法,将 MeshVAE 与基于流的扩散 Transformer 结合起来。它在连续潜空间中生成显式网格几何和连接关系,而不是通过自回归方式逐个解码离散面片 token。
该方法先将网格压缩为紧凑的连续潜变量,再通过流匹配并行生成。页面强调约一秒生成速度、相较于自回归风格网格生成约 18
World Tracing 是一种像素对齐的生成式几何方法,用于预测可见表面之外的分层 3D 世界。它可以从单张图像或短时动态输入中估计物体、场景和运动内容的多层几何,而不只是最前方可见的深度。
项目页面展示了物体、场景和动态预测器,并提供 6 层物体与场景几何模型以及 16 帧动态模型的链接。它支持免训练的纹理网格生成、3D 场
CubePart 是一种开放词汇的零件可控 3D 生成器,设计用于根据文本提示和零件架构创建多零件 3D 网格对象。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 CubePart 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析
Hy-MT2-30B-A3B是一款大型多语言翻译模型,专为高质量机器翻译而设计,具有30B规模的架构和主动参数效率。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Hy-MT2-30B-A3B 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或
Lance 是一种原生统一多模态模型,专为在一个紧凑的 3B 主动参数系统中理解、生成和编辑图像和视频而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Lance 没有提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
LeRobot Humanoid是一个开放的低成本人形机器人平台,专为机器人学习而设计,具有可由社区构建和修改的3D打印双足人形机器人。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。乐机器人人形机器人并不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能
LocateAnything 是一种快速视觉语言基础模型,设计用于定位对象、GUI 元素、文档区域、OCR 目标以及根据语言提示进行密集检测。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 LocateAnything 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式