寻找最新最佳的AI人工智能。浏览最全面的AI数据库,每日持续更新。
最新
LTX-2 Trainer 是 Lightricks 的 LTX-2 音频-视频生成模型的训练和微调包。它提供了用于 LoRA 训练、全面微调以及跨视频、音频和联合音视频工作流程的灵活调节的工具和脚本。
该软件包涵盖文本到视频、文本到音频、图像到视频、视频扩展、音频扩展、视频修复、音频修复、视频修复、IC-LoRA 参考、音频到
LOGOS,科学生成对象语言,是一个建立在统一科学语法之上的多领域科学生成框架。它将蛋白质、抗体、小分子、反应、材料和空间相互作用编码为共享词汇中的标记序列。
与使用自然语言作为中介或需要显式 3D 几何网络的系统不同,LOGOS 在域本机表示上运行。诸如蛋白质口袋-配体接触之类的空间关系被离散化和标记化,因此一种自回归模型可以
Boogu-Image-0.1 是一个 Apache-2.0 开源统一多模态理解、图像生成和图像编辑模型系列。它包括Base、Turbo、Edit和其他变体,用于文本到图像生成、快速生成、图像编辑和中英文文本渲染。
该项目通过改进模型理解、数据质量和训练流程,强调受限训练计算下的实用图像质量。该页面重点介绍了逼真的摄影、双语排版
TeleStyle V2 是一种内容保留风格转移和图像编辑模型,通过自蒸馏和分布匹配蒸馏构建。它将 TeleStyle V1 扩展到原始的现实内容和风格化参考设置之外,以处理内容和风格角色中的现实和风格化参考。
该模型使用 TeleStyle V1 构建自蒸馏三元组,然后使用分布匹配蒸馏来降低推理成本,同时保留 Qwen-Ima
PermaVid 是一个一致的视频生成框架,旨在跨时间、视点变化和编辑操作保持场景持久性。它解决了早期视频上下文中的内存在全局或本地编辑后可能会过时的问题。
该方法使用解缠结的多模态上下文记忆,其中包含用于语义外观的 RGB 库和用于几何结构的深度库。编辑感知内存更新和检索使生成器能够传播新的外观,同时在更改后保留稳定的几何形状
Modality Forcing 是一个训练后配方,可将预训练的文本到图像模型转变为联合图像深度生成器。它利用 T2I 模型内的空间先验来合成图像和深度,而不需要密集的深度数据或复杂的训练方法。
该方法在稀疏深度数据上训练单个 DiT,每个模态和每个模态解码器具有单独的噪声级别。这使得模型能够以不同的排列执行图像和深度的条件联合
GLM-5.2 是 Z.ai 的旗舰开放权重模型,适用于长期任务、代理编码和大规模工程工作。该版本描述了超越 GLM-5.1 的实质性功能跳跃,以及用于持续长上下文工作流程的可靠 1M 令牌上下文。
该模型通过灵活的思维努力水平改进了编码,并引入了架构更改(例如 IndexShare)以提高稀疏注意力效率。 Z.ai 还描述了用
OmniDirector 是一个相机运动克隆系统,用于对参考视频中的源图像进行动画处理,包括多镜头相机运动,无需交叉配对训练数据。它的目标是动态摄像机运动、多镜头过渡、场景概括和特殊摄像机技术。
该方法通过根据空 3D 空间中的参考摄像机姿势渲染的摄像机网格来表示摄像机运动。在训练期间,该相机网格与其他控件一起注入到 MMDiT
QUEST 是一个由 2B 到 35B 深度研究代理组成的开放家族,经过完全合成的红字树任务训练。这些模型的目标是跨客观和开放式研究基准的事实查找、引文基础和报告综合。
训练方法结合了基于标题树的任务合成、结构化上下文管理以及跨越训练中期、监督微调和强化学习的三阶段管道。该项目强调发布模型、数据、数据合成脚本和训练代码。
Universal Manipulation Exoskeleton(或 UME)是一种用于机器人远程操作的上肢外骨骼,具有实时触觉扭矩反馈。它记录整个手臂的配置和关节扭矩信号,以便机器人可以从人类演示中学习合规策略。
UME 设计成本低、重量轻、便于携带,并通过嵌入式 IMU 兼容移动操控。通用重定向算法使其能够远程操作多个机
MoVerse 是一种实时视频世界建模方法,可从单张窄视场图像构建可导航的 3D 世界。它将世界构建与观察渲染分离,使可复用的全景高斯骨架能够支持交互式视频漫游。
该流程先把输入图像扩展为重力对齐的 360 度全景图,再将其提升为 3D 高斯骨架,随后沿用户控制的相机轨迹渲染逼真的视频。项目页面报告在单张 RTX 4090 上可实
OSCAR 是一个面向机器人领域的全具身、动作条件世界模型。该项目在 Cosmos-Predict2.5-2B 基础上进行微调,使用统一的 2D 运动学骨架条件来覆盖多种机器人具身形态和一个 MANO 手模型,并结合机器人遥操作与第一人称人类视频数据。
该模型旨在预测不同具身形态下、受动作条件控制的未来视觉观察。通过共享的 2D
Flex4DHuman 是一种灵活的多视角视频扩散方法,用于 4D 人体重建。它仅依赖相对相机位姿条件、无需显式几何先验,就能将单目或稀疏多视角的动态人物视频转成同步的稠密多视角视频。
生成出的稠密多视角视频可进一步提升为动态 4D Gaussian splats,使该系统成为视频扩散与可重建 4D 人体资产之间的桥梁。页面链接了
dots.tts 是一个 20 亿参数、完全连续、端到端的自回归文本转语音系统。其骨干结合了语义编码器、LLM 和一个作用于 48 kHz AudioVAE 之上的自回归流匹配声学头,整个流程不使用离散 token。
项目页面强调它在中文、英文、困难中文评测、多语言说话人相似度、语音克隆和情感表达等方面取得了强基准结果。页面还提供
StreamForce 是一个流式视频生成框架,允许用户在视频生成过程中施加并修改物理力。它从单张图像出发,支持对局部推动和风等全局效应进行因果控制,让运动操控变成交互式过程,而非完全预设脚本。
该方法聚焦于通过连续力输入实现物理上更合理的控制。页面展示了全局和局部力控制、实时交互、下落与弹跳、质量感知运动、摩擦感知运动,以及生成
i1 是普林斯顿推出的文生图扩散模型项目,重点在于用一种简单且完全开放的配方实现强图像生成能力。该工作研究建模与数据选择如何影响能力,最终形成一个在 1024 分辨率上评估的 30 亿参数模型。
项目研究了模型设计、文本与噪声条件、骨干架构、合成字幕、提示词改写、数据集混合以及训练与评估选择。它把开放性作为核心贡献之一,通过发布模
SCAIL-2 是一个可控角色动画框架,可将驱动序列中的动作迁移到参考角色,而无需依赖骨架图或掩码等中间表示。它直接以驱动视频潜变量作为条件输入到潜空间视频扩散模型中,有助于保留仅依赖骨架管线容易丢失的视觉信息。
系统通过端到端的上下文内条件设计,统一了单角色动画、多角色动画、角色替换和零样本动画。项目页面介绍了特定模式的 RoP
MiniMax M3 是 MiniMaxAI 在 Hugging Face 上发布的多模态模型,面向图文到文本、智能体、编码、视频和对话等用例。模型卡将其标注为基于 Transformer 的 safetensors 发布版本,并带有自定义代码和 minimax_m3_vl 架构。
页面提供了 Transformers 的使用示例
DiffusionGemma 是 Google 推出的基于扩散的文本生成模型,被定位为标准自回归解码的超快替代方案。公告称,它通过并行细化文本而不是严格逐 token 生成,可实现最高 4 倍更快的文本生成。
该模型将扩散思想应用到语言上,从带噪或不完整的文本状态出发,逐步去噪得到最终答案。这改变了交互式助手、批量生成系统,以及需
Gemini Live Translate 是 Google 基于 Gemini 提供的近实时语音翻译体验,面向自然口语对话。公告称它可通过 Google AI Studio、Google Translate 和 Google Meet 使用,重点在于流畅的语音翻译,而不只是文本字幕。
该功能为低延迟听说场景而构建,希望译后的语音