寻找最新最佳的研究人工智能。浏览最全面的AI数据库,每日持续更新。
最新
Arbor 是一个面向自主研究的框架,核心是持久化的假设树迭代优化。它不会把每次 AI 研究尝试都视为孤立事件,而是保存分叉假设,把实验结果作为证据回流,并且只有在留出集结果支持时才提升改进。
该项目面向长周期研究循环,其中智能体会生成想法、运行实验、总结证据,并更新累积的假设树。页面链接了论文、GitHub 仓库、文档和在线演示
SEGA 是一种用于扩散变换器的分辨率外推方法,旨在无需重新训练即可生成稳定的超高分辨率图像。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 SEGA 没有提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
GenRecon 是一个多视图 3D 场景重建框架,旨在从休闲智能手机视频或多视图 RGB 图像生成完整的可编辑 PBR 就绪室内场景网格。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 GenRecon 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人
Flash-GRPO 是一种高效的视频扩散对齐方法,旨在在计算预算紧张的情况下改进视频扩散模型对齐。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Flash-GRPO 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析的内容。
L2P 是一种潜在到像素的传输范式,旨在构建强大的像素空间扩散模型,而无需从头开始训练。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 L2P 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
L2P
LiTo 是一种表面光场标记化方法,专为具有依赖于视图的外观的高质量图像到 3D 生成和重建而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 LiTo 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
WavFlow 是一种原始波形音频生成模型,专为高保真音频合成而设计,没有潜在压缩或 VAE 瓶颈。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 WavFlow 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析的内容。
PiD 是一种像素扩散解码器,专为潜在图像生成系统的快速高分辨率潜在解码和上采样而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PiD 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
PiD
TriSplat 是一种前馈 3D 场景重建方法,旨在从稀疏视图生成可用于仿真的网格状场景重建。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 TriSplat 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
SwiftI2V 是一种高效的高分辨率图像到视频生成框架,可将静态图像转换为高达 2K 分辨率的时间连贯视频。它针对生成视频的主要瓶颈:端到端高分辨率生成可能非常昂贵,而低分辨率生成和视频超分辨率可能会失去原始图像的保真度。 SwiftI2V 旨在保持输入图像条件良好,同时减少高分辨率输出所需的计算量。
该框架使用条件分段生成,将
LabOS 是一个面向现代实验室的 AI-XR 联合科学家平台,它将代理推理与现实世界的实验执行联系起来。它旨在通过结合多模式人工智能代理、XR 智能眼镜、实验室专用视觉语言模型和文档工作流程,帮助科学家从干实验室规划转向湿实验室行动。目标是让人工智能看到研究人员所看到的内容,推理协议状态,并实时指导或验证物理实验步骤。
该系统是
RecGen 是一个生成 3D 重建框架,用于从稀疏 RGB-D 观测中恢复完整的多对象场景。即使场景的大部分被遮挡隐藏,RecGen 也不会将每个可见片段视为整个对象,而是估计完整的对象形状、纹理和 6-DoF 姿势。该系统专为机器人、嵌入式人工智能、模拟和场景理解工作流程而设计,其中相机可能只能观察部分视图,但下游系统仍然需要可以操纵、模拟或评估的
Warp-as-History 是一种相机控制的视频生成方法,可将相机引起的扭曲转变为预训练视频模型的控制接口。它可以在有限的监督下实现视点操纵和摄像机轨迹跟踪,使用视频历史记录不仅仅是简单的上下文。该方法旨在生成交互式视频,用户希望在不添加单独的相机控制模块的情况下引导相机运动。
该技术将所需的摄像机运动转换为摄像机扭曲的伪历史
CDM(连续时间分布匹配)是一种用于生成高保真图像的扩散蒸馏方法。它旨在使扩散模型以很少的推理步骤生成强大的图像,减少延迟,同时保留纹理、细节和提示对齐。该项目专注于将大型图像生成器提炼为更快的采样器,而不依赖于额外的 GAN 损失或奖励模型目标。
该方法将分布匹配蒸馏从离散调度迁移到连续时间优化框架。这使得 CDM 可以更好地使
UniVidX 是一个统一的多模式框架,用于跨多种输入和输出模式生成多功能视频。 UniVidX 不是为每个图形或视频任务训练单独的视频扩散模型,而是将不同的问题视为共享多模态空间内的条件生成。这使得该系统对于希望使用一个模型系列来处理视频创建、视频翻译、视频抠图、法线估计和其他任意生成任务的研究人员非常有用。
该框架是围绕将视觉
AsymFlow 是一种用于可扩展高维像素生成的非对称流建模方法。它旨在通过改变速度预测的参数化方式来使像素空间生成模型更具竞争力。 AsymFlow 没有强制模型直接预测高维噪声,而是将噪声预测限制在低秩子空间,同时保持数据预测全维。
该方法从不对称预测结构中分析恢复全维流速,而不需要不同的网络架构或新的采样程序。这使得 Asy
OmniShow 是一个公共研究项目,用于生成或组织表演风格的视觉内容。它专为生成的视频需要以比单个原始剪辑更加结构化和可控的方式呈现主题、动作或概念的场景而设计。该产品与视频生成、产品演示和多模式演示工作流程相关。
该系统可能将视觉生成与对主体外观、时间、相机行为或场景呈现的结构化控制结合起来。技术评估应侧重于时间一致性、及时遵
DreamLite 是一个轻量级生成研究系统,旨在提高高质量视觉或 3D 合成的效率。它是为那些想要生成能力而无需承担重型大规模管道的全部成本的用户而设计的。该产品与研究紧凑架构、高效渲染和实用创意生成的研究人员相关。
该系统强调效率,这通常意味着减少内存使用、推理时间或优化开销,同时保持输出质量。技术评估应重点关注该方法如何压缩
TokenDial 是一个专注于生成语言模型中令牌级控制、分析或调整的研究项目。它专为需要更直接地处理令牌如何影响模型行为、解码和输出结构的用户而设计。该产品与 LLM 可解释性、可控生成、即时工程和推理时间引导相关。
该系统可能公开了一种在生成过程中检查或操纵令牌分布、令牌重要性或解码行为的方法。从技术上讲,令牌级别的干预可以影
VOID是一种用于对象和交互删除的视频编辑模型。它的设计目的不仅是从视频中删除可见对象,还可以删除与这些对象相关的交互和运动后果。这使得它比逐帧修复更先进,因为编辑后的视频在删除后必须保持时间连贯性和物理合理性。
该系统的目标是视频级删除,其中掩模、对象轨迹、交互区域和时间上下文必须一起处理。从技术上讲,模型必须保留背景外观,填充