寻找最新最佳的3D 渲染人工智能。浏览最全面的AI数据库,每日持续更新。
最新
OmniDirector 是一个相机运动克隆系统,用于对参考视频中的源图像进行动画处理,包括多镜头相机运动,无需交叉配对训练数据。它的目标是动态摄像机运动、多镜头过渡、场景概括和特殊摄像机技术。
该方法通过根据空 3D 空间中的参考摄像机姿势渲染的摄像机网格来表示摄像机运动。在训练期间,该相机网格与其他控件一起注入到 MMDiT
MoVerse 是一种实时视频世界建模方法,可从单张窄视场图像构建可导航的 3D 世界。它将世界构建与观察渲染分离,使可复用的全景高斯骨架能够支持交互式视频漫游。
该流程先把输入图像扩展为重力对齐的 360 度全景图,再将其提升为 3D 高斯骨架,随后沿用户控制的相机轨迹渲染逼真的视频。项目页面报告在单张 RTX 4090 上可实
Surflo 是一种流匹配方法,用于从数量可变、无需位姿的图像中重建连贯的 3D 表面。它将所有输入视角融合为固定的全局潜状态,再以任意分辨率解码显式定向表面点。
系统采用基于 VGGT 的编码器、Perceiver 风格压缩器来生成全局状态,并通过逐点流匹配 ODE 解码。它加入基于渲染的通信引导,使独立流动的点仍属于同一个连贯
LiTo 是一种表面光场标记化方法,专为具有依赖于视图的外观的高质量图像到 3D 生成和重建而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 LiTo 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
D-Rex 是一个扩散渲染框架,适用于逼真、可重新照明、富有表现力的全身人体化身。它专为远程呈现、游戏、虚拟制作和数字人类等应用而设计,在这些应用中,化身必须在视觉上逼真,并且在不断变化的灯光和表情下可控。该系统专注于特定人物的化身,支持自由视点渲染和富有表现力的动画,同时保留逼真的外观。
主要技术贡献是通过将重新照明视为具有扩散
MoCam 是一种视频重新摄像方法,用于在具有挑战性的相机轨迹和不完整几何形状下进行新颖的视图合成。它允许用户生成新的摄像机运动,例如大弧线、复杂路径、移动变焦、放大或缩小以及视频的子弹时间效果。该方法被设计为即使在几何先验扭曲、稀疏或不完美的情况下也能工作,这在实际捕获的场景中很常见。
该系统使用结构化去噪动力学来引导扩散过程从
TrackCraft3R 是一种开源密集 3D 跟踪系统,可重新利用预训练的视频扩散变换器进行轨迹预测。给定单目视频以及预测的深度和相机信息,它可以在单次前向传播中预测密集的 3D 轨迹。该项目针对的是从事普通视频输入的运动、几何和跟踪研究的计算机视觉研究人员。
该系统以 Wan2.1-T2V-1.3B 为基础,作为预训练视频扩散
DreamLite 是一个轻量级生成研究系统,旨在提高高质量视觉或 3D 合成的效率。它是为那些想要生成能力而无需承担重型大规模管道的全部成本的用户而设计的。该产品与研究紧凑架构、高效渲染和实用创意生成的研究人员相关。
该系统强调效率,这通常意味着减少内存使用、推理时间或优化开销,同时保持输出质量。技术评估应重点关注该方法如何压缩
Waypoint 1.5 是 Overworld 的实时 AI 世界模型,旨在将交互式生成的世界带入日常 GPU。它专注于通过减少通常与高端生成环境相关的硬件障碍,使世界模拟变得更容易。该产品面向那些想要实时世界而不依赖昂贵的工作站规模推理的创作者、开发者和研究人员。
该系统围绕实时世界生成和运行时效率进行了优化,使用模型和渲染改
Alaya Renderer 是一个生成世界渲染器,为视频生成渲染提供了缩放配方。它是围绕来自 AAA 游戏、逆渲染、重新光照和游戏编辑的大规模 G 缓冲区数据而设计的。该产品与构建可控视频渲染系统的团队相关,其中需要操纵几何形状、材质、照明和场景属性,而不是烘焙成像素。
该系统使用结构化渲染信号(例如 G 缓冲区)来指导视频生成
Vista4D 是一个视频重拍框架,它使用 4D 点云从新的摄像机轨迹和视点合成动态场景。它专为以下情况而设计:源视频包含有用的场景内容,但用户想要更改该场景的查看、扩展或重组方式。这使得它与电影制作、虚拟制作、场景编辑和动态 3D 重建相关。
该系统将视频生成基于临时持续的 4D 点云,有助于保留场景内容,同时为用户提供更明确的
LGTM 是 Less Gaussians、Texture More 的缩写,是一个 3D 表示项目,专注于通过使用更少的基元同时保留或增强纹理细节来改进基于高斯的渲染。它专为想要更高效的 3D 场景表示而不放弃视觉质量的用户而设计。该产品与神经渲染、高斯喷射、重建和实时 3D 可视化相关。
该方法可能会减少高斯基元的数量,并通过
LagerNVS 是一个实时新颖的视图合成项目,它使用潜在的几何图形和 3D 偏差,而无需显式的 3D 表示。该方法被设计为可推广和前馈,使其可用于在实际设置中快速渲染新视点。其研究框架强调,即使模型没有明确存储 3D 场景,3D 先验也可以提供帮助。
项目页面解释说,该模型将 3D 启发架构与 3D 预训练相结合,使实时 NVS
ArchRender 是一款前沿的可视化工具,旨在彻底改变建筑师和设计师的工作流程,通过显著加速将三维模型转化为令人惊叹的照片级逼真图像的过程。它超越了传统上设置复杂场景、配置复杂灯光和漫长渲染队列所需的时间,使用户能够在几秒钟内获得高质量、照片风格的视觉效果。通过自动化大部分技术渲染的开销,它使用户能够专注于创意迭代和客户沟通,而不是技术执行。
Hitem3d 是一款领先的平台,可直接从图像生成高保真三维模型。该服务利用专有技术,旨在将单个输入图像转换为细节丰富、精度极高的可投入生产的 3D 资产。它通过提供简化的流程来解决关键的行业挑战,该流程可以保持清晰的边缘并保留复杂的视觉数据,使得输出可以直接用于要求苛刻的应用,如 3D 打印和游戏开发。
该平台的一项重要能力是其
UltraShape 1.0 是一个高保真 3D 形状生成系统,它围绕一个可扩展的两阶段扩散框架构建,专门用于高质量的几何合成。它专注于生成详细、准确的 3D 形状,而不仅仅是粗糙的网格,使其适用于对精确结构和干净拓扑有要求的应用,例如内容创作、模拟和数字资产管道。通过将几何质量作为主要目标,UltraShape 1.0 旨在弥合快速生成模型与生产级
VerseCrafter 是一个可控的视频世界模型,提供对相机和多物体运动的明确的 4D 几何控制。它从大规模的野外数据中学习一个逼真且可控的视频世界先验,能够处理具有强大时空一致性的复杂动态场景。该模型允许用户指定目标相机轨迹和多物体 3D 高斯轨迹,从而在各种动态和静态场景中实现稳健的控制。
VerseCrafter 的框架包括
SCAIL 代表了角色图像动画领域的突破性进展,旨在生成逼真且时间连贯的视频,其中角色的外观与提供的参考图像完美一致,同时忠实地复制驱动视频中复杂的动作。SCAIL 的核心是引入了一种新颖的可扩展 3D 姿态表示,它通过使用 GPU 上的光线步进(ray marching)的有效 3D 体素管线,将传统 2D 骨架和参数化 SMPL 模型的优势统一起来
Mago Studio 是一款先进的人工智能视频工具,专为旨在精确、灵活地转换任何素材的创意专业人士设计。它通过视频到视频的工作流程,使用户能够轻松地为实景拍摄或 3D 动画添加风格。该工具特别适用于动画、电影、游戏过场动画和广告制作,有助于降低制作成本并加快创意工作流程。它的功能扩展到使雄心勃勃的视觉概念得以实现,使创作者能够探索独特的审美,提升音乐
Stable Diffusion 3.5 是 Stability AI 发布的一款强大的文生图生成模型,具有多种针对不同创意和专业需求的模型变体。此次发布包括 Stable Diffusion 3.5 Large、Large Turbo 和 Medium 版本,每个版本都旨在平衡图像质量、速度和提示词遵循度。这些模型使用户能够创建具有卓越保真度的高质量