寻找最新最佳的视频人工智能。浏览最全面的AI数据库,每日持续更新。
最新
OmniDirector 是一个相机运动克隆系统,用于对参考视频中的源图像进行动画处理,包括多镜头相机运动,无需交叉配对训练数据。它的目标是动态摄像机运动、多镜头过渡、场景概括和特殊摄像机技术。
该方法通过根据空 3D 空间中的参考摄像机姿势渲染的摄像机网格来表示摄像机运动。在训练期间,该相机网格与其他控件一起注入到 MMDiT
PermaVid 是一个一致的视频生成框架,旨在跨时间、视点变化和编辑操作保持场景持久性。它解决了早期视频上下文中的内存在全局或本地编辑后可能会过时的问题。
该方法使用解缠结的多模态上下文记忆,其中包含用于语义外观的 RGB 库和用于几何结构的深度库。编辑感知内存更新和检索使生成器能够传播新的外观,同时在更改后保留稳定的几何形状
LTX-2 Trainer 是 Lightricks 的 LTX-2 音频-视频生成模型的训练和微调包。它提供了用于 LoRA 训练、全面微调以及跨视频、音频和联合音视频工作流程的灵活调节的工具和脚本。
该软件包涵盖文本到视频、文本到音频、图像到视频、视频扩展、音频扩展、视频修复、音频修复、视频修复、IC-LoRA 参考、音频到
MilliVid 是一种围绕层级潜变量构建的长上下文视频生成方法,旨在实现长程一致性。它解决了传统扩散模型在生成大量帧时会快速形成过长 Transformer 序列、难以实用的问题。
该方法预训练一个层级自动编码器,将每帧压缩为多个 token 层级,然后通过由粗到细的 rollout 生成视频。与扁平潜表示相比,这让模型能在更紧
SCAIL-2 是一个可控角色动画框架,可将驱动序列中的动作迁移到参考角色,而无需依赖骨架图或掩码等中间表示。它直接以驱动视频潜变量作为条件输入到潜空间视频扩散模型中,有助于保留仅依赖骨架管线容易丢失的视觉信息。
系统通过端到端的上下文内条件设计,统一了单角色动画、多角色动画、角色替换和零样本动画。项目页面介绍了特定模式的 RoP
StreamForce 是一个流式视频生成框架,允许用户在视频生成过程中施加并修改物理力。它从单张图像出发,支持对局部推动和风等全局效应进行因果控制,让运动操控变成交互式过程,而非完全预设脚本。
该方法聚焦于通过连续力输入实现物理上更合理的控制。页面展示了全局和局部力控制、实时交互、下落与弹跳、质量感知运动、摩擦感知运动,以及生成
Flex4DHuman 是一种灵活的多视角视频扩散方法,用于 4D 人体重建。它仅依赖相对相机位姿条件、无需显式几何先验,就能将单目或稀疏多视角的动态人物视频转成同步的稠密多视角视频。
生成出的稠密多视角视频可进一步提升为动态 4D Gaussian splats,使该系统成为视频扩散与可重建 4D 人体资产之间的桥梁。页面链接了
Pantheon360是一种3D感知的360度视频扩散模型,专为数字孪生生成而设计,具有全景覆盖、精确的摄像机控制和时空一致性。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Pantheon360 并不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能
Flash-GRPO 是一种高效的视频扩散对齐方法,旨在在计算预算紧张的情况下改进视频扩散模型对齐。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Flash-GRPO 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析的内容。
InstructAV2AV是一种指令引导的音视频联合编辑系统,旨在使用自然语言指令编辑语音、外观、对象和视听实例。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 InstructAV2AV 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工
SwiftI2V 是一种高效的高分辨率图像到视频生成框架,可将静态图像转换为高达 2K 分辨率的时间连贯视频。它针对生成视频的主要瓶颈:端到端高分辨率生成可能非常昂贵,而低分辨率生成和视频超分辨率可能会失去原始图像的保真度。 SwiftI2V 旨在保持输入图像条件良好,同时减少高分辨率输出所需的计算量。
该框架使用条件分段生成,将
Just-Dub-It 是一种联合视听视频配音模型,可以翻译和重新配音视频,同时保留说话者身份和视觉唇形同步。该系统专为真实的多语言配音而设计,其中生成的语音必须与目标语言和原始演员的可见嘴部动作相匹配。 Just-Dub-It 没有链接单独的翻译器、语音克隆器和口型同步模型,而是将配音视为协调的视听生成问题。
该模型使用视听扩散
Warp-as-History 是一种相机控制的视频生成方法,可将相机引起的扭曲转变为预训练视频模型的控制接口。它可以在有限的监督下实现视点操纵和摄像机轨迹跟踪,使用视频历史记录不仅仅是简单的上下文。该方法旨在生成交互式视频,用户希望在不添加单独的相机控制模块的情况下引导相机运动。
该技术将所需的摄像机运动转换为摄像机扭曲的伪历史
UniVidX 是一个统一的多模式框架,用于跨多种输入和输出模式生成多功能视频。 UniVidX 不是为每个图形或视频任务训练单独的视频扩散模型,而是将不同的问题视为共享多模态空间内的条件生成。这使得该系统对于希望使用一个模型系列来处理视频创建、视频翻译、视频抠图、法线估计和其他任意生成任务的研究人员非常有用。
该框架是围绕将视觉
Relit-LiVE 是一个视频重新点亮框架,可生成物理一致且时间稳定的重新点亮视频。它旨在改变真实素材中的照明,同时保留几何形状、材质外观和帧与帧的一致性。该系统针对图像和视频重新照明工作流程,包括高分辨率图像重新照明和多帧视频序列。
该框架联合预测重新点亮的视频帧和视点对齐的每帧扭曲环境图。这种联合公式有助于增强几何-光一致性
MoCam 是一种视频重新摄像方法,用于在具有挑战性的相机轨迹和不完整几何形状下进行新颖的视图合成。它允许用户生成新的摄像机运动,例如大弧线、复杂路径、移动变焦、放大或缩小以及视频的子弹时间效果。该方法被设计为即使在几何先验扭曲、稀疏或不完美的情况下也能工作,这在实际捕获的场景中很常见。
该系统使用结构化去噪动力学来引导扩散过程从
SANA-WM 是 NVIDIA 的高效分钟级世界模型,用于从初始图像和相机轨迹生成可控 720p 视频。它旨在通过在单个 GPU 上生成一分钟长的视频,同时保留摄像机控制,使长视界世界模拟更加实用。该模型针对交互式环境、体现人工智能、模拟和生成视频工作流程,其中质量和时间长度都很重要。
该架构是一个带有混合线性扩散变压器的 2.
PhyMotion 是一种结构化 3D 运动奖励,用于改进和评估基于物理的人类视频生成。它针对的是视频生成中的一个主要弱点:模型可以生成具有视觉吸引力的人类视频,但仍然包含漂浮的身体、平衡破坏、接触不良或物理上难以置信的运动。 PhyMotion 提供了一个超越 2D 感知质量的奖励信号,并评估生成的人体运动是否可以合理地存在于 3D 中。
CausalCine 是一种用于多镜头叙事创作的实时自回归视频生成系统。它专为交互式导演而设计,用户可以在系统随意流式传输视频的同时附加新的镜头级提示。 CausalCine 不是生成单个孤立的剪辑,而是在各个镜头中维护故事背景,因此序列可以随着连续性和新的创意方向而演变。
该系统重用内容感知的 KV 内存来保留远程叙事上下文和跨
OmniShow 是一个公共研究项目,用于生成或组织表演风格的视觉内容。它专为生成的视频需要以比单个原始剪辑更加结构化和可控的方式呈现主题、动作或概念的场景而设计。该产品与视频生成、产品演示和多模式演示工作流程相关。
该系统可能将视觉生成与对主体外观、时间、相机行为或场景呈现的结构化控制结合起来。技术评估应侧重于时间一致性、及时遵