寻找最新最佳的视频人工智能。浏览最全面的AI数据库,每日持续更新。
最新
InstructAV2AV是一种指令引导的音视频联合编辑系统,旨在使用自然语言指令编辑语音、外观、对象和视听实例。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 InstructAV2AV 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工
Flash-GRPO 是一种高效的视频扩散对齐方法,旨在在计算预算紧张的情况下改进视频扩散模型对齐。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Flash-GRPO 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析的内容。
Pantheon360是一种3D感知的360度视频扩散模型,专为数字孪生生成而设计,具有全景覆盖、精确的摄像机控制和时空一致性。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Pantheon360 并不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能
SwiftI2V 是一种高效的高分辨率图像到视频生成框架,可将静态图像转换为高达 2K 分辨率的时间连贯视频。它针对生成视频的主要瓶颈:端到端高分辨率生成可能非常昂贵,而低分辨率生成和视频超分辨率可能会失去原始图像的保真度。 SwiftI2V 旨在保持输入图像条件良好,同时减少高分辨率输出所需的计算量。
该框架使用条件分段生成,将
SANA-WM 是 NVIDIA 的高效分钟级世界模型,用于从初始图像和相机轨迹生成可控 720p 视频。它旨在通过在单个 GPU 上生成一分钟长的视频,同时保留摄像机控制,使长视界世界模拟更加实用。该模型针对交互式环境、体现人工智能、模拟和生成视频工作流程,其中质量和时间长度都很重要。
该架构是一个带有混合线性扩散变压器的 2.
CausalCine 是一种用于多镜头叙事创作的实时自回归视频生成系统。它专为交互式导演而设计,用户可以在系统随意流式传输视频的同时附加新的镜头级提示。 CausalCine 不是生成单个孤立的剪辑,而是在各个镜头中维护故事背景,因此序列可以随着连续性和新的创意方向而演变。
该系统重用内容感知的 KV 内存来保留远程叙事上下文和跨
Just-Dub-It 是一种联合视听视频配音模型,可以翻译和重新配音视频,同时保留说话者身份和视觉唇形同步。该系统专为真实的多语言配音而设计,其中生成的语音必须与目标语言和原始演员的可见嘴部动作相匹配。 Just-Dub-It 没有链接单独的翻译器、语音克隆器和口型同步模型,而是将配音视为协调的视听生成问题。
该模型使用视听扩散
PhyMotion 是一种结构化 3D 运动奖励,用于改进和评估基于物理的人类视频生成。它针对的是视频生成中的一个主要弱点:模型可以生成具有视觉吸引力的人类视频,但仍然包含漂浮的身体、平衡破坏、接触不良或物理上难以置信的运动。 PhyMotion 提供了一个超越 2D 感知质量的奖励信号,并评估生成的人体运动是否可以合理地存在于 3D 中。
Warp-as-History 是一种相机控制的视频生成方法,可将相机引起的扭曲转变为预训练视频模型的控制接口。它可以在有限的监督下实现视点操纵和摄像机轨迹跟踪,使用视频历史记录不仅仅是简单的上下文。该方法旨在生成交互式视频,用户希望在不添加单独的相机控制模块的情况下引导相机运动。
该技术将所需的摄像机运动转换为摄像机扭曲的伪历史
UniVidX 是一个统一的多模式框架,用于跨多种输入和输出模式生成多功能视频。 UniVidX 不是为每个图形或视频任务训练单独的视频扩散模型,而是将不同的问题视为共享多模态空间内的条件生成。这使得该系统对于希望使用一个模型系列来处理视频创建、视频翻译、视频抠图、法线估计和其他任意生成任务的研究人员非常有用。
该框架是围绕将视觉
Relit-LiVE 是一个视频重新点亮框架,可生成物理一致且时间稳定的重新点亮视频。它旨在改变真实素材中的照明,同时保留几何形状、材质外观和帧与帧的一致性。该系统针对图像和视频重新照明工作流程,包括高分辨率图像重新照明和多帧视频序列。
该框架联合预测重新点亮的视频帧和视点对齐的每帧扭曲环境图。这种联合公式有助于增强几何-光一致性
MoCam 是一种视频重新摄像方法,用于在具有挑战性的相机轨迹和不完整几何形状下进行新颖的视图合成。它允许用户生成新的摄像机运动,例如大弧线、复杂路径、移动变焦、放大或缩小以及视频的子弹时间效果。该方法被设计为即使在几何先验扭曲、稀疏或不完美的情况下也能工作,这在实际捕获的场景中很常见。
该系统使用结构化去噪动力学来引导扩散过程从
Happy Oyster是一款人工智能创意媒体产品,旨在通过基于网络的工作流程生成视觉或视频内容。它专为希望以轻量级方式创建媒体资产而无需构建完整的制作管道的用户而设计。该产品与尝试人工智能生成视觉效果的创作者、营销人员和团队相关。
公共页面公开了产品品牌,但可读的技术细节有限,因此评估应重点关注产品内部的实际生成工作流程、模型控
OmniShow 是一个公共研究项目,用于生成或组织表演风格的视觉内容。它专为生成的视频需要以比单个原始剪辑更加结构化和可控的方式呈现主题、动作或概念的场景而设计。该产品与视频生成、产品演示和多模式演示工作流程相关。
该系统可能将视觉生成与对主体外观、时间、相机行为或场景呈现的结构化控制结合起来。技术评估应侧重于时间一致性、及时遵
LPM,即大型表演模型,是一种基于视频的角色表演模型。它旨在捕捉和生成富有表现力的角色表演,重点关注使角色在屏幕上感觉生动的动作、时机和呈现质量。该产品与动画、数字人类、视频生成和性能驱动的角色控制相关。
该模型可能使用视频数据来学习表演信号、角色身份、运动动力学和视觉输出之间的映射。技术评估应重点关注时间一致性、姿势保真度、表达
VOID是一种用于对象和交互删除的视频编辑模型。它的设计目的不仅是从视频中删除可见对象,还可以删除与这些对象相关的交互和运动后果。这使得它比逐帧修复更先进,因为编辑后的视频在删除后必须保持时间连贯性和物理合理性。
该系统的目标是视频级删除,其中掩模、对象轨迹、交互区域和时间上下文必须一起处理。从技术上讲,模型必须保留背景外观,填充
Alaya Renderer 是一个生成世界渲染器,为视频生成渲染提供了缩放配方。它是围绕来自 AAA 游戏、逆渲染、重新光照和游戏编辑的大规模 G 缓冲区数据而设计的。该产品与构建可控视频渲染系统的团队相关,其中需要操纵几何形状、材质、照明和场景属性,而不是烘焙成像素。
该系统使用结构化渲染信号(例如 G 缓冲区)来指导视频生成
混合内存是一种用于改善动态视频世界模型中的内存的研究系统。它旨在帮助生成的世界记住稳定的场景信息和随时间变化的动态状态。这对于长视距视频模拟很重要,因为模型经常会忘记对象、在空间上漂移或随着世代的扩展而失去连续性。
该系统使用混合记忆方法,可能将短期动态记忆与长期场景或世界状态表示相结合。从技术上讲,这允许视频世界模型保留持久结构
Happy Horse 是一款人工智能视频生成产品,旨在根据提示、参考图像和其他创意输入创建电影剪辑。它针对的是创作者、营销人员、代理机构和产品团队,他们需要在没有传统制作流程的情况下将想法转化为精美的短片视频。该产品专注于速度、运动质量和创意控制,因此用户可以为活动、讲故事、教育和社交媒体生成可用的视觉资产。
该工作流程以文本到
MMPhysVideo 是一个专注于视频多模态物理推理的研究系统。它专为视频模型不仅必须理解外观和运动,而且还必须理解使场景合理的物理关系的任务而设计。这使得它与机器人、模拟、视频生成以及生成的视频是否服从现实世界动态的评估相关。
该系统可能将视觉视频输入与物理线索、多模态调节和代表对象动力学、力、运动轨迹或场景约束的评估信号相结