寻找最新最佳的Free人工智能。浏览最全面的AI数据库,每日持续更新。
最新
LOGOS,科学生成对象语言,是一个建立在统一科学语法之上的多领域科学生成框架。它将蛋白质、抗体、小分子、反应、材料和空间相互作用编码为共享词汇中的标记序列。
与使用自然语言作为中介或需要显式 3D 几何网络的系统不同,LOGOS 在域本机表示上运行。诸如蛋白质口袋-配体接触之类的空间关系被离散化和标记化,因此一种自回归模型可以
TeleStyle V2 是一种内容保留风格转移和图像编辑模型,通过自蒸馏和分布匹配蒸馏构建。它将 TeleStyle V1 扩展到原始的现实内容和风格化参考设置之外,以处理内容和风格角色中的现实和风格化参考。
该模型使用 TeleStyle V1 构建自蒸馏三元组,然后使用分布匹配蒸馏来降低推理成本,同时保留 Qwen-Ima
PermaVid 是一个一致的视频生成框架,旨在跨时间、视点变化和编辑操作保持场景持久性。它解决了早期视频上下文中的内存在全局或本地编辑后可能会过时的问题。
该方法使用解缠结的多模态上下文记忆,其中包含用于语义外观的 RGB 库和用于几何结构的深度库。编辑感知内存更新和检索使生成器能够传播新的外观,同时在更改后保留稳定的几何形状
OmniDirector 是一个相机运动克隆系统,用于对参考视频中的源图像进行动画处理,包括多镜头相机运动,无需交叉配对训练数据。它的目标是动态摄像机运动、多镜头过渡、场景概括和特殊摄像机技术。
该方法通过根据空 3D 空间中的参考摄像机姿势渲染的摄像机网格来表示摄像机运动。在训练期间,该相机网格与其他控件一起注入到 MMDiT
GLM-5.2 是 Z.ai 的旗舰开放权重模型,适用于长期任务、代理编码和大规模工程工作。该版本描述了超越 GLM-5.1 的实质性功能跳跃,以及用于持续长上下文工作流程的可靠 1M 令牌上下文。
该模型通过灵活的思维努力水平改进了编码,并引入了架构更改(例如 IndexShare)以提高稀疏注意力效率。 Z.ai 还描述了用
Universal Manipulation Exoskeleton(或 UME)是一种用于机器人远程操作的上肢外骨骼,具有实时触觉扭矩反馈。它记录整个手臂的配置和关节扭矩信号,以便机器人可以从人类演示中学习合规策略。
UME 设计成本低、重量轻、便于携带,并通过嵌入式 IMU 兼容移动操控。通用重定向算法使其能够远程操作多个机
Modality Forcing 是一个训练后配方,可将预训练的文本到图像模型转变为联合图像深度生成器。它利用 T2I 模型内的空间先验来合成图像和深度,而不需要密集的深度数据或复杂的训练方法。
该方法在稀疏深度数据上训练单个 DiT,每个模态和每个模态解码器具有单独的噪声级别。这使得模型能够以不同的排列执行图像和深度的条件联合
Boogu-Image-0.1 是一个 Apache-2.0 开源统一多模态理解、图像生成和图像编辑模型系列。它包括Base、Turbo、Edit和其他变体,用于文本到图像生成、快速生成、图像编辑和中英文文本渲染。
该项目通过改进模型理解、数据质量和训练流程,强调受限训练计算下的实用图像质量。该页面重点介绍了逼真的摄影、双语排版
QUEST 是一个由 2B 到 35B 深度研究代理组成的开放家族,经过完全合成的红字树任务训练。这些模型的目标是跨客观和开放式研究基准的事实查找、引文基础和报告综合。
训练方法结合了基于标题树的任务合成、结构化上下文管理以及跨越训练中期、监督微调和强化学习的三阶段管道。该项目强调发布模型、数据、数据合成脚本和训练代码。
LTX-2 Trainer 是 Lightricks 的 LTX-2 音频-视频生成模型的训练和微调包。它提供了用于 LoRA 训练、全面微调以及跨视频、音频和联合音视频工作流程的灵活调节的工具和脚本。
该软件包涵盖文本到视频、文本到音频、图像到视频、视频扩展、音频扩展、视频修复、音频修复、视频修复、IC-LoRA 参考、音频到
i1 是普林斯顿推出的文生图扩散模型项目,重点在于用一种简单且完全开放的配方实现强图像生成能力。该工作研究建模与数据选择如何影响能力,最终形成一个在 1024 分辨率上评估的 30 亿参数模型。
项目研究了模型设计、文本与噪声条件、骨干架构、合成字幕、提示词改写、数据集混合以及训练与评估选择。它把开放性作为核心贡献之一,通过发布模
DiffusionGemma 是 Google 推出的基于扩散的文本生成模型,被定位为标准自回归解码的超快替代方案。公告称,它通过并行细化文本而不是严格逐 token 生成,可实现最高 4 倍更快的文本生成。
该模型将扩散思想应用到语言上,从带噪或不完整的文本状态出发,逐步去噪得到最终答案。这改变了交互式助手、批量生成系统,以及需
Actionable World Representation 通过 WorldString 展示,是一种用于构建物理对象神经数字孪生的方法。它从关键点条件 3D 建模中学习 token 分配和误差图,使对象几何能够真正用于机器人和仿真场景中的操作。
该项目面向关节式、蒙皮式、柔性、可变形以及机器人对象,页面展示了机器人手、SMP
MeshFlow 是一种高效的艺术化网格生成方法,将 MeshVAE 与基于流的扩散 Transformer 结合起来。它在连续潜空间中生成显式网格几何和连接关系,而不是通过自回归方式逐个解码离散面片 token。
该方法先将网格压缩为紧凑的连续潜变量,再通过流匹配并行生成。页面强调约一秒生成速度、相较于自回归风格网格生成约 18
dots.tts 是一个 20 亿参数、完全连续、端到端的自回归文本转语音系统。其骨干结合了语义编码器、LLM 和一个作用于 48 kHz AudioVAE 之上的自回归流匹配声学头,整个流程不使用离散 token。
项目页面强调它在中文、英文、困难中文评测、多语言说话人相似度、语音克隆和情感表达等方面取得了强基准结果。页面还提供
AnchorWorld 是一个具身第一人称世界模拟框架,支持基于视图的演化定制。它利用人体动作控制和与姿态关联的锚点视图,让智能体或玩家能够以第一人称视角探索定制化世界。
每个锚点视图都提供 RGB 图像、用于空间定位的 3D 姿态,以及说明场景应如何变化的演化提示。该方法结合了混合视角的人体动作控制、可演化的锚点视图定制和渐进式
MiniMax M3 是 MiniMaxAI 在 Hugging Face 上发布的多模态模型,面向图文到文本、智能体、编码、视频和对话等用例。模型卡将其标注为基于 Transformer 的 safetensors 发布版本,并带有自定义代码和 minimax_m3_vl 架构。
页面提供了 Transformers 的使用示例
MilliVid 是一种围绕层级潜变量构建的长上下文视频生成方法,旨在实现长程一致性。它解决了传统扩散模型在生成大量帧时会快速形成过长 Transformer 序列、难以实用的问题。
该方法预训练一个层级自动编码器,将每帧压缩为多个 token 层级,然后通过由粗到细的 rollout 生成视频。与扁平潜表示相比,这让模型能在更紧
Flex4DHuman 是一种灵活的多视角视频扩散方法,用于 4D 人体重建。它仅依赖相对相机位姿条件、无需显式几何先验,就能将单目或稀疏多视角的动态人物视频转成同步的稠密多视角视频。
生成出的稠密多视角视频可进一步提升为动态 4D Gaussian splats,使该系统成为视频扩散与可重建 4D 人体资产之间的桥梁。页面链接了
Arbor 是一个面向自主研究的框架,核心是持久化的假设树迭代优化。它不会把每次 AI 研究尝试都视为孤立事件,而是保存分叉假设,把实验结果作为证据回流,并且只有在留出集结果支持时才提升改进。
该项目面向长周期研究循环,其中智能体会生成想法、运行实验、总结证据,并更新累积的假设树。页面链接了论文、GitHub 仓库、文档和在线演示