寻找最新最佳的研究人工智能。浏览最全面的AI数据库,每日持续更新。
最新
PiD 是一种像素扩散解码器,专为潜在图像生成系统的快速高分辨率潜在解码和上采样而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PiD 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
PiD
GenRecon 是一个多视图 3D 场景重建框架,旨在从休闲智能手机视频或多视图 RGB 图像生成完整的可编辑 PBR 就绪室内场景网格。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 GenRecon 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人
Flash-GRPO 是一种高效的视频扩散对齐方法,旨在在计算预算紧张的情况下改进视频扩散模型对齐。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Flash-GRPO 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析的内容。
TriSplat 是一种前馈 3D 场景重建方法,旨在从稀疏视图生成可用于仿真的网格状场景重建。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 TriSplat 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
LiTo 是一种表面光场标记化方法,专为具有依赖于视图的外观的高质量图像到 3D 生成和重建而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 LiTo 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
WavFlow 是一种原始波形音频生成模型,专为高保真音频合成而设计,没有潜在压缩或 VAE 瓶颈。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 WavFlow 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析的内容。
L2P 是一种潜在到像素的传输范式,旨在构建强大的像素空间扩散模型,而无需从头开始训练。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 L2P 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
L2P
SEGA 是一种用于扩散变换器的分辨率外推方法,旨在无需重新训练即可生成稳定的超高分辨率图像。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 SEGA 没有提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
Warp-as-History 是一种相机控制的视频生成方法,可将相机引起的扭曲转变为预训练视频模型的控制接口。它可以在有限的监督下实现视点操纵和摄像机轨迹跟踪,使用视频历史记录不仅仅是简单的上下文。该方法旨在生成交互式视频,用户希望在不添加单独的相机控制模块的情况下引导相机运动。
该技术将所需的摄像机运动转换为摄像机扭曲的伪历史
UniVidX 是一个统一的多模式框架,用于跨多种输入和输出模式生成多功能视频。 UniVidX 不是为每个图形或视频任务训练单独的视频扩散模型,而是将不同的问题视为共享多模态空间内的条件生成。这使得该系统对于希望使用一个模型系列来处理视频创建、视频翻译、视频抠图、法线估计和其他任意生成任务的研究人员非常有用。
该框架是围绕将视觉
SwiftI2V 是一种高效的高分辨率图像到视频生成框架,可将静态图像转换为高达 2K 分辨率的时间连贯视频。它针对生成视频的主要瓶颈:端到端高分辨率生成可能非常昂贵,而低分辨率生成和视频超分辨率可能会失去原始图像的保真度。 SwiftI2V 旨在保持输入图像条件良好,同时减少高分辨率输出所需的计算量。
该框架使用条件分段生成,将
RecGen 是一个生成 3D 重建框架,用于从稀疏 RGB-D 观测中恢复完整的多对象场景。即使场景的大部分被遮挡隐藏,RecGen 也不会将每个可见片段视为整个对象,而是估计完整的对象形状、纹理和 6-DoF 姿势。该系统专为机器人、嵌入式人工智能、模拟和场景理解工作流程而设计,其中相机可能只能观察部分视图,但下游系统仍然需要可以操纵、模拟或评估的
CDM(连续时间分布匹配)是一种用于生成高保真图像的扩散蒸馏方法。它旨在使扩散模型以很少的推理步骤生成强大的图像,减少延迟,同时保留纹理、细节和提示对齐。该项目专注于将大型图像生成器提炼为更快的采样器,而不依赖于额外的 GAN 损失或奖励模型目标。
该方法将分布匹配蒸馏从离散调度迁移到连续时间优化框架。这使得 CDM 可以更好地使
AsymFlow 是一种用于可扩展高维像素生成的非对称流建模方法。它旨在通过改变速度预测的参数化方式来使像素空间生成模型更具竞争力。 AsymFlow 没有强制模型直接预测高维噪声,而是将噪声预测限制在低秩子空间,同时保持数据预测全维。
该方法从不对称预测结构中分析恢复全维流速,而不需要不同的网络架构或新的采样程序。这使得 Asy
LabOS 是一个面向现代实验室的 AI-XR 联合科学家平台,它将代理推理与现实世界的实验执行联系起来。它旨在通过结合多模式人工智能代理、XR 智能眼镜、实验室专用视觉语言模型和文档工作流程,帮助科学家从干实验室规划转向湿实验室行动。目标是让人工智能看到研究人员所看到的内容,推理协议状态,并实时指导或验证物理实验步骤。
该系统是
GPT Rosalind 是 OpenAI 专门为生命科学研究构建的前沿推理模型。它旨在支持生物学、药物发现、化学、蛋白质工程、基因组学和转化医学的工作。该模型是为科学工作流程而构建的,其中对证据、实验计划、分子、基因、途径和生物背景的推理比一般聊天表现更重要。
该模型系列针对长期、工具繁重的科学工作流程进行了优化,并且可以通过
HandX 是一个文本条件双手运动生成系统。它旨在根据自然语言描述生成协调的双手动作,使其可用于机器人、动画、人体运动合成和操纵研究。该产品专注于双手动作,双手必须在空间和时间上协调。
该系统必须表示手部姿势、交互时间、双手之间的对称或不对称,以及与物体的接触或隐含的任务约束。技术评估应重点关注动作真实性、手部清晰度、手部协调性、
FML 是一个统一的矢量平面图生成系统,它使用标记表示来创建结构化的建筑布局。它专为需要保持可编辑、语义有意义和几何精确而不是生成为平面图像的平面图而设计。该产品与建筑、室内设计、CAD 自动化和布局生成研究相关。
该系统通过类似标记的结构化数据来表示平面图,允许生成的布局以可解析和编辑的形式对墙壁、房间、门、空间关系和几何形状进
DreamLite 是一个轻量级生成研究系统,旨在提高高质量视觉或 3D 合成的效率。它是为那些想要生成能力而无需承担重型大规模管道的全部成本的用户而设计的。该产品与研究紧凑架构、高效渲染和实用创意生成的研究人员相关。
该系统强调效率,这通常意味着减少内存使用、推理时间或优化开销,同时保持输出质量。技术评估应重点关注该方法如何压缩
Numina 是一个研究系统,其核心思想是数字可以通过更具表现力的视觉或具体表现来表达。它旨在通过将抽象量转换为更容易感知、比较和推理的表示形式来帮助用户理解数字信息。该产品涉及数据可视化、人机交互、教育工具和具体人工智能通信。
该系统可能将数字输入与视觉编码策略、具体呈现或将数量映射为可理解的视觉形式的交互模型相结合。技术评估应