寻找最新最佳的3D 动画人工智能。浏览最全面的AI数据库,每日持续更新。
最新
OmniDirector 是一个相机运动克隆系统,用于对参考视频中的源图像进行动画处理,包括多镜头相机运动,无需交叉配对训练数据。它的目标是动态摄像机运动、多镜头过渡、场景概括和特殊摄像机技术。
该方法通过根据空 3D 空间中的参考摄像机姿势渲染的摄像机网格来表示摄像机运动。在训练期间,该相机网格与其他控件一起注入到 MMDiT
CubePart 是一种开放词汇的零件可控 3D 生成器,设计用于根据文本提示和零件架构创建多零件 3D 网格对象。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 CubePart 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析
PhyMotion 是一种结构化 3D 运动奖励,用于改进和评估基于物理的人类视频生成。它针对的是视频生成中的一个主要弱点:模型可以生成具有视觉吸引力的人类视频,但仍然包含漂浮的身体、平衡破坏、接触不良或物理上难以置信的运动。 PhyMotion 提供了一个超越 2D 感知质量的奖励信号,并评估生成的人体运动是否可以合理地存在于 3D 中。
D-Rex 是一个扩散渲染框架,适用于逼真、可重新照明、富有表现力的全身人体化身。它专为远程呈现、游戏、虚拟制作和数字人类等应用而设计,在这些应用中,化身必须在视觉上逼真,并且在不断变化的灯光和表情下可控。该系统专注于特定人物的化身,支持自由视点渲染和富有表现力的动画,同时保留逼真的外观。
主要技术贡献是通过将重新照明视为具有扩散
Kimodo 是 NVIDIA 研究的运动学运动扩散模型,用于生成高质量的 3D 人类和机器人运动。它接受大规模光学动作捕捉数据的训练,专注于可控动作生成而不是简单的动画播放。该模型与机器人、人形控制、角色动画、模拟和具体人工智能相关。
从技术上讲,Kimodo 使用基于运动学表示的基于扩散的生成运动模型。通过大规模光学动作捕捉训
AniGen 是一个统一的生成框架,可从单个图像创建动画就绪的 3D 资源。它专为静态概念或参考需要成为具有适合动画结构的可用 3D 资产的工作流程而设计。该产品涉及游戏、动画、虚拟制作、角色资产和3D内容创作。
AniGen 使用统一的 S3 字段来生成可动画的 3D 资产,这意味着该表示旨在捕获下游动画所需的形状、结构和语义。
HY3 是腾讯混源 3D 预览版,专注于高级 3D 生成和资产创建。它专为需要 AI 辅助 3D 内容工作流程的用户而设计,包括从高级输入生成对象、预览或面向生产的 3D 资产。作为预览版,它为创作者和技术团队提供了一种评估腾讯3D生成堆栈方向的方法。
该产品适合更广泛的 AI 工具运动,可降低创建 3D 内容的成本和复杂性。像
KLING 3.0 是一款下一代视频生成平台,旨在直接从文本或图像提示创建高度逼真、影院级的素材。它专注于长篇、时间连贯的视频,使用户能够生成具有一致角色、稳定镜头运动和丰富环境细节的复杂场景。凭借针对高分辨率输出和对运动及风格进行精细控制而优化的模型架构,KLING 3.0 旨在为那些需要在不牺牲视觉保真度的情况下快速迭代的专业创作者服务。
FrankenMotion 是一个用于部件级人体运动生成和组合的框架,能够在保持全局语义一致性的同时,对单个身体部件实现精细控制。它由一个通过大型语言模型构建的新型分层弗兰肯斯坦数据集提供支持。该数据集提供了原子化的、时间感知的部件级文本注释,允许在精细的时间分辨率下实现异步和语义上不同的部件运动。
FrankenMotion 模型
HY-Motion 1.0 是腾讯混元团队开发的开源文本到 3D 人体动作生成模型,旨在直接从自然语言描述中自动生成高质量的角色动画。它专注于生成可集成到标准内容创建流程中的 3D 骨架动作,使用户能够通过文字描述动作并获得物理上合理的运动序列,而无需手动设置关键帧。该项目专为面向生产的工作流程而设计,提供了代码和模型权重,可用于合成从日常行为到高动态
SCAIL 代表了角色图像动画领域的突破性进展,旨在生成逼真且时间连贯的视频,其中角色的外观与提供的参考图像完美一致,同时忠实地复制驱动视频中复杂的动作。SCAIL 的核心是引入了一种新颖的可扩展 3D 姿态表示,它通过使用 GPU 上的光线步进(ray marching)的有效 3D 体素管线,将传统 2D 骨架和参数化 SMPL 模型的优势统一起来
Mago Studio 是一款先进的人工智能视频工具,专为旨在精确、灵活地转换任何素材的创意专业人士设计。它通过视频到视频的工作流程,使用户能够轻松地为实景拍摄或 3D 动画添加风格。该工具特别适用于动画、电影、游戏过场动画和广告制作,有助于降低制作成本并加快创意工作流程。它的功能扩展到使雄心勃勃的视觉概念得以实现,使创作者能够探索独特的审美,提升音乐
Mochi 1 是一款先进的开源视频生成模型,以其高保真度的运动和对文本提示的强力遵循而闻名。它在运动质量和提示对齐方面实现了显著飞跃,推动了开源视频创作的极限。Mochi 1 采用宽松的 Apache 2.0 许可证,可用于个人和商业用途,重点是照片级真实感视频生成,而非动画内容。该模型能够在 30 帧/秒的速度下产生流畅的视频输出,时长可达 5.4
VoxDeck 是一款人工智能演示文稿创作工具,它彻底改变了演示文稿的制作流程,将简单的文本提示或上传的材料转化为视觉效果惊艳的专业幻灯片。它擅长打造沉浸式、影院级的幻灯片体验,并运用 3D 图表、交互式视觉效果和逼真的头像等元素,动态地讲述和呈现内容。该工具旨在通过自动化大部分设计和创作流程,节省专业人士、教育工作者和商业用户的时间和精力,同时确保演
OmniPart 是一个用于生成零件感知型 3D 对象的新型框架,它在保持稳健结构内聚力的同时,实现了组件之间的高度语义解耦。该框架旨在克服传统生成方法仅能生成单一形状的局限性,从而限制了它们在交互式应用中的实用性。OmniPart 以独特的方式将复杂的 3D 对象生成任务解耦为两个协同阶段,从而能够创建具有明确、可编辑零件结构的 3D 资源。
3DV-TON 是一款先进的视频试穿框架,旨在无缝替换视频序列中的服装,并提供高保真、时间一致的效果。传统的视频试穿方法往往难以应对复杂的服装图案和多样的体态,而 3DV-TON 则引入了一种基于漫射的、由纹理 3D 网格引导的方法。这种明确的 3D 引导机制使系统能够直接参考服装纹理运动,确保服装的过渡在整个视频中保持逼真和连贯。通过利用这些可动画化
VACE 是一个一体化的视频创作和编辑框架,旨在将多种视频合成和编辑任务统一到一个多功能模型中。它支持多种功能,包括文本转视频生成、引用转视频生成、视频转视频编辑以及带蒙版的视频转视频编辑。通过将文本、图像、视频和蒙版等多种输入模式集成到一个统一的视频条件单元 (VCU) 中,VACE 能够无缝处理传统上需要多种专用工具才能完成的复杂视频任务。该模型利
LHM 是一个突破性的模型,旨在通过单张图像快速、高保真地重建可动画的 3D 人体。它利用多模态 Transformer 架构,通过注意力机制有效地编码人体位置特征和图像特征,解决了分离几何形状、外观和变形的复杂挑战。这能够保留服装的几何形状和纹理细节,并通过 3D 高斯分布生成逼真的 3D 虚拟形象。该模型引入了一种头部特征金字塔编码方案,用于聚合头
DreamActor-M1 是一款基于扩散变换技术的先进人体图像动画框架,能够通过单张静态图像创建高度逼真且富有表现力的动画。它能够对面部表情和全身动作进行精细的整体控制,使用户能够为肖像和全身镜头制作动画,且不会损失细节或画质。该模型采用混合运动引导系统,整合了隐式面部表征、3D 头部球体和 3D 身体骨骼,从而生成自然且能够保留身份的动画,捕捉细微
HoloPart 是一个用于生成式 3D 部件非模态分割的尖端开源框架,旨在彻底改变 3D 模型的分解和编辑方式。传统的 3D 模型,无论是手工制作、扫描还是生成的,通常都以单一、未分割的网格形式存在,这使得分离、编辑或为各个组件制作动画变得非常困难。HoloPart 通过引入 3D 部件非模态分割的概念来解决这一挑战,该概念超越了可见表面分割,即使部