/ 开源

开源 AI

寻找最新最佳的开源人工智能。浏览最全面的AI数据库，每日持续更新。

Representation Distribution Matching

Representation Distribution Matching，简称 RDM，是一种用于一步式视觉生成的训练方法。其 iRDM 配方通过在一组多样化、冻结的预训练编码器下匹配生成特征与真实特征的分布来训练生成器，无需在线教师、对抗损失或多步轨迹。

该方法将批内精确排斥与对冻结参考分布的 Nyström 吸引项结合起来，并

OmniContact

NewFree机器人开源

OmniContact 是一种面向可泛化类人机器人移动操控的接触流框架。它让机器人能够在不同物体形状、尺寸、高度、初始状态和任务序列之间复用并组合搬运、推动、滑动、重定位、踢击、行走和恢复等元技能。

该框架使用 CF-Gen 合成接触流片段，并由 CF-Track 通过底层策略执行这些片段。闭环监控以 50 Hz 运行，同时一个实

Perceptive Behavior Foundation Model

NewFree机器人开源

Perceptive Behavior Foundation Model 是一种机器人控制策略，可将任意平地人类动作参考适配到机器人实际遇到的地形上。参考轨迹表达动作意图，而以机器人为中心的感知则负责补足原始动作中缺失的落脚点、摆腿间隙、姿态和接触时序信息。

训练流程使用 TCRS 监督，这是一种离线合成器，可将原始动作片段与采样

ViDiHand

NewFree3D视觉开源

ViDiHand 是一种视频扩散模型，用于从第一人称和复杂视频中重建手部运动。它面向 4D 手部恢复，在真实世界操作序列中具备遮挡鲁棒性、准确的姿态与位置估计，以及时间上平滑的运动表现。

该方法在保持基础 DiT 冻结的同时，通过手部叠加渲染微调 VACE 分支。一个轻量级双分支解码器读取共享的中间 VACE 特征，以预测 MAN

LongCat-2.0

NewFreemiumLLM开源

LongCat-2.0 是一个大规模混合专家语言模型，总参数量为 1.6 万亿，每个 token 约激活 480 亿参数。它面向长上下文推理、编程、工具使用、研究以及智能体工作流，并在发布中描述了公开模型和 API 访问方式。

该模型引入了 LongCat Sparse Attention，通过流式感知、跨层和分层索引来降低超长输

Agents-A1

NewFreeLLM开源

Agents-A1 是一个 35B 混合专家智能体语言模型，面向长时程搜索、工程、科学研究、指令遵循和工具调用。它针对模型需要规划、检查中间状态、保持约束并完成多步任务，而非仅回答单一孤立提示的工作流。

该模型通过领域落地的 knowledge-action graph 和三阶段配方进行训练。全领域监督微调建立广泛的智能体行为，领

Brain2Qwerty

NewFree神经技术开源

Brain2Qwerty 是 Meta 的非侵入式脑到文本研究系统，用于从脑活动中解码输入语言。Brain2Qwerty v2 被描述为一种端到端流程，可在不植入外科设备的情况下，接近实时地从脑磁图记录中解码句子。

该系统直接从原始神经信号中学习，而不是依赖手工设计的事件检测流程。Meta 表示，v2 在来自 9 名志愿者的大约

PhysiFormer

NewFree机器人开源

PhysiFormer 是一种用于生成物理合理 3D 物体运动的扩散 Transformer。给定每个顶点的初始位置、速度以及物体材料类型，它会在世界坐标中采样完整时域的顶点轨迹，使模型能够在不依赖视角相关像素空间的情况下推理刚体、弹性体和混合材料的交互。

该模型将轨迹预测表述为网格坐标上的去噪扩散过程。跨时间、空间和物体的因式分

MuSViT

NewFree音乐AI开源

MuSViT 是一种用于乐谱表示的基础视觉模型。它使用在 970 万页 IMSLP 乐谱上通过掩码自编码器预训练的 ViT 编码器，为音乐记谱提供面向领域的视觉骨干，而不是依赖通用图像编码器。

该模型采用 12 层 Transformer、16x16 图像块、768 维嵌入和 2D 正弦位置编码，以保留五线谱纵向结构。训练遵循两阶

MrFlow

NewFree图像生成开源

MrFlow 是一种免训练的分阶段采样方法，用于加速预训练的基于 flow matching 的文生图扩散模型。它将大部分去噪工作转移到更便宜的低分辨率阶段，然后通过像素空间超分辨率和短暂的高分辨率细化阶段恢复细节。

该流程先生成低分辨率图像，再用 Real-ESRGAN 放大结果、重新编码，注入与调度器一致的低强度噪声，并执行少

LiveEdit

NewFree视频编辑开源

LiveEdit 是一种流式视频编辑框架，可实现因果式、逐帧扩散编辑，并具备实时响应能力。它的目标是在视频到达时保留背景和未编辑区域，同时应用局部或全局的文本引导修改，而不是等待完整的离线序列。

该系统使用三阶段蒸馏流程：基础调优让双向扩散 Transformer 获得编辑能力，因果适配将其转为按块流式注意力，而 DMD 蒸馏则将

Fish Audio S2

NewFreemiumTTS开源

Fish Audio S2 是一套富表现力的开源文本转语音模型发布，核心是 S2 Pro，即 Fish Audio 的 40 亿参数多语言语音模型。它专为自然、逼真的语音生成而构建，支持情感、风格指令、多说话人控制、语音克隆以及行内韵律控制。

S2 Pro 采用双自回归架构，其中 40 亿参数的 Slow AR 组件负责语义预测，

Lift4D

NewFree3D开源

Lift4D 是一种测试时优化框架，用于从单目野外视频中重建完整的动态 4D 物体。它旨在恢复几何、外观和形变，包括相机从未直接观测到的区域。

该方法会调整单视图 3D 重建模型，通过因果潜变量条件生成时间一致的逐帧 3D 预测。这些预测用于初始化可变形的 3D Gaussian Splatting 表示，随后再通过感知遮挡的外观

PerceptionDLM

NewFree多模态开源

PerceptionDLM 是一种为高效并行区域感知优化的多模态扩散语言模型。它旨在解决自回归式多模态大模型按顺序描述多个图像区域、因而随着区域数量增加扩展性较差的问题。

该模型建立在 PerceptionDLM-Base 之上，结合视觉编码器和离散扩散语言模型骨干。高效并行提示将多个区域掩码打包进单个提示中，而结构化注意力掩码则

Modality Forcing

NewFree图像开源

Modality Forcing 是一个训练后配方，可将预训练的文本到图像模型转变为联合图像深度生成器。它利用 T2I 模型内的空间先验来合成图像和深度，而不需要密集的深度数据或复杂的训练方法。

该方法在稀疏深度数据上训练单个 DiT，每个模态和每个模态解码器具有单独的噪声级别。这使得模型能够以不同的排列执行图像和深度的条件联合

QUEST

NewFree智能体开源

QUEST 是一个由 2B 到 35B 深度研究代理组成的开放家族，经过完全合成的红字树任务训练。这些模型的目标是跨客观和开放式研究基准的事实查找、引文基础和报告综合。

训练方法结合了基于标题树的任务合成、结构化上下文管理以及跨越训练中期、监督微调和强化学习的三阶段管道。该项目强调发布模型、数据、数据合成脚本和训练代码。

LOGOS

NewFree科学开源

LOGOS，科学生成对象语言，是一个建立在统一科学语法之上的多领域科学生成框架。它将蛋白质、抗体、小分子、反应、材料和空间相互作用编码为共享词汇中的标记序列。

与使用自然语言作为中介或需要显式 3D 几何网络的系统不同，LOGOS 在域本机表示上运行。诸如蛋白质口袋-配体接触之类的空间关系被离散化和标记化，因此一种自回归模型可以

TeleStyle V2

NewFree图像开源

TeleStyle V2 是一种内容保留风格转移和图像编辑模型，通过自蒸馏和分布匹配蒸馏构建。它将 TeleStyle V1 扩展到原始的现实内容和风格化参考设置之外，以处理内容和风格角色中的现实和风格化参考。

该模型使用 TeleStyle V1 构建自蒸馏三元组，然后使用分布匹配蒸馏来降低推理成本，同时保留 Qwen-Ima

Boogu-Image-0.1

NewFree图像开源

Boogu-Image-0.1 是一个 Apache-2.0 开源统一多模态理解、图像生成和图像编辑模型系列。它包括Base、Turbo、Edit和其他变体，用于文本到图像生成、快速生成、图像编辑和中英文文本渲染。

该项目通过改进模型理解、数据质量和训练流程，强调受限训练计算下的实用图像质量。该页面重点介绍了逼真的摄影、双语排版

OmniDirector

NewFree视频开源

OmniDirector 是一个相机运动克隆系统，用于对参考视频中的源图像进行动画处理，包括多镜头相机运动，无需交叉配对训练数据。它的目标是动态摄像机运动、多镜头过渡、场景概括和特殊摄像机技术。

该方法通过根据空 3D 空间中的参考摄像机姿势渲染的摄像机网格来表示摄像机运动。在训练期间，该相机网格与其他控件一起注入到 MMDiT

开源 AI

Representation Distribution Matching

OmniContact

Perceptive Behavior Foundation Model

ViDiHand

LongCat-2.0

Agents-A1

Brain2Qwerty

PhysiFormer

MuSViT

MrFlow

LiveEdit

Fish Audio S2

Lift4D

PerceptionDLM

Modality Forcing

QUEST

LOGOS

TeleStyle V2

Boogu-Image-0.1

OmniDirector

Check out our YouTube for AI news & in-depth tutorials!