/ Free

Free AI

寻找最新最佳的Free人工智能。浏览最全面的AI数据库，每日持续更新。

Agents-A1

NewFreeLLM开源

Agents-A1 是一个 35B 混合专家智能体语言模型，面向长时程搜索、工程、科学研究、指令遵循和工具调用。它针对模型需要规划、检查中间状态、保持约束并完成多步任务，而非仅回答单一孤立提示的工作流。

该模型通过领域落地的 knowledge-action graph 和三阶段配方进行训练。全领域监督微调建立广泛的智能体行为，领

LUNA

NewFree3D动画研究

LUNA 是一种无需 LBS 的通用神经动画模型，可从少量身份图像和多样化 2D 驱动信号中创建逼真、可动画化的 3D 人体头像。它将图像、关键点、草图和未见角色输入映射为 3D 高斯表示的形变，而无需显式人体拟合。

该系统首先从四张未摆姿态的多视角身份图像中重建规范 3D 高斯。随后，基于 Transformer 的隐式神经动画

OmniContact

NewFree机器人开源

OmniContact 是一种面向可泛化类人机器人移动操控的接触流框架。它让机器人能够在不同物体形状、尺寸、高度、初始状态和任务序列之间复用并组合搬运、推动、滑动、重定位、踢击、行走和恢复等元技能。

该框架使用 CF-Gen 合成接触流片段，并由 CF-Track 通过底层策略执行这些片段。闭环监控以 50 Hz 运行，同时一个实

PhysiFormer

NewFree机器人开源

PhysiFormer 是一种用于生成物理合理 3D 物体运动的扩散 Transformer。给定每个顶点的初始位置、速度以及物体材料类型，它会在世界坐标中采样完整时域的顶点轨迹，使模型能够在不依赖视角相关像素空间的情况下推理刚体、弹性体和混合材料的交互。

该模型将轨迹预测表述为网格坐标上的去噪扩散过程。跨时间、空间和物体的因式分

LiveEdit

NewFree视频编辑开源

LiveEdit 是一种流式视频编辑框架，可实现因果式、逐帧扩散编辑，并具备实时响应能力。它的目标是在视频到达时保留背景和未编辑区域，同时应用局部或全局的文本引导修改，而不是等待完整的离线序列。

该系统使用三阶段蒸馏流程：基础调优让双向扩散 Transformer 获得编辑能力，因果适配将其转为按块流式注意力，而 DMD 蒸馏则将

Representation Distribution Matching

NewFree图像生成开源

Representation Distribution Matching，简称 RDM，是一种用于一步式视觉生成的训练方法。其 iRDM 配方通过在一组多样化、冻结的预训练编码器下匹配生成特征与真实特征的分布来训练生成器，无需在线教师、对抗损失或多步轨迹。

该方法将批内精确排斥与对冻结参考分布的 Nyström 吸引项结合起来，并

Perceptive Behavior Foundation Model

NewFree机器人开源

Perceptive Behavior Foundation Model 是一种机器人控制策略，可将任意平地人类动作参考适配到机器人实际遇到的地形上。参考轨迹表达动作意图，而以机器人为中心的感知则负责补足原始动作中缺失的落脚点、摆腿间隙、姿态和接触时序信息。

训练流程使用 TCRS 监督，这是一种离线合成器，可将原始动作片段与采样

MuSViT

NewFree音乐AI开源

MuSViT 是一种用于乐谱表示的基础视觉模型。它使用在 970 万页 IMSLP 乐谱上通过掩码自编码器预训练的 ViT 编码器，为音乐记谱提供面向领域的视觉骨干，而不是依赖通用图像编码器。

该模型采用 12 层 Transformer、16x16 图像块、768 维嵌入和 2D 正弦位置编码，以保留五线谱纵向结构。训练遵循两阶

Brain2Qwerty

NewFree神经技术开源

Brain2Qwerty 是 Meta 的非侵入式脑到文本研究系统，用于从脑活动中解码输入语言。Brain2Qwerty v2 被描述为一种端到端流程，可在不植入外科设备的情况下，接近实时地从脑磁图记录中解码句子。

该系统直接从原始神经信号中学习，而不是依赖手工设计的事件检测流程。Meta 表示，v2 在来自 9 名志愿者的大约

MrFlow

NewFree图像生成开源

MrFlow 是一种免训练的分阶段采样方法，用于加速预训练的基于 flow matching 的文生图扩散模型。它将大部分去噪工作转移到更便宜的低分辨率阶段，然后通过像素空间超分辨率和短暂的高分辨率细化阶段恢复细节。

该流程先生成低分辨率图像，再用 Real-ESRGAN 放大结果、重新编码，注入与调度器一致的低强度噪声，并执行少

ViDiHand

NewFree3D视觉开源

ViDiHand 是一种视频扩散模型，用于从第一人称和复杂视频中重建手部运动。它面向 4D 手部恢复，在真实世界操作序列中具备遮挡鲁棒性、准确的姿态与位置估计，以及时间上平滑的运动表现。

该方法在保持基础 DiT 冻结的同时，通过手部叠加渲染微调 VACE 分支。一个轻量级双分支解码器读取共享的中间 VACE 特征，以预测 MAN

Fish Audio S2.1 Pro

NewFreeTTSAPI

Fish Audio S2.1 Pro 是一款可通过 Fish Audio API 使用的生产级神经文本转语音模型，其模型字符串为 s2.1-pro-free。它面向需要逼真语音合成、低延迟流式输出、多语言生成和语音克隆的开发者，而且无需从仅限付费的评估路径开始。

该模型通过一个 API 端点支持 83 种语言，可通过将 Fish

Ornith-1.0

NewFree智能体RL

Ornith-1.0 是 DeepReinforce 的智能体模型，专注于自我改进的长时程任务表现。其页面描述了一种训练设置：模型会编写任务脚手架、生成解题轨迹，并接收奖励信号，从而同时优化脚手架和最终行为。

该方法将脚手架生成视为策略的一部分，而不是固定的人工设计外壳。来自下游轨迹的奖励会反向传播到脚手架构建阶段，同时不可变外层

PerceptionDLM

NewFree多模态开源

PerceptionDLM 是一种为高效并行区域感知优化的多模态扩散语言模型。它旨在解决自回归式多模态大模型按顺序描述多个图像区域、因而随着区域数量增加扩展性较差的问题。

该模型建立在 PerceptionDLM-Base 之上，结合视觉编码器和离散扩散语言模型骨干。高效并行提示将多个区域掩码打包进单个提示中，而结构化注意力掩码则

Wan Streamer v0.1

NewFree多模态实时

Wan Streamer v0.1 是一种原生流式、端到端的交互式基础模型，用于实时音视频交互。它能够在单个 Transformer 中完成听、看、思考、说话和生成同步视频响应，目标是实现全双工交互，而不是依赖分离的 ASR、LLM、TTS 和数字人模块流水线。

该模型将语言、音频和视频表示为由块因果注意力协调的交错输入和输出 t

DomainShuttle

NewFree视频开源

DomainShuttle 是一种以主体为驱动的文生视频生成方法，用于自由形式的开放域个性化。它能在保持身份一致性、运动质量和电影级细节的同时，将同一主体带入真实与想象中的不同世界。

该项目展示了跨域视频个性化能力，包括从真实到奇幻、从奇幻到真实，以及混合域交互。它还展示了同域个性化，包括人物与物体交互、多物体生成和多人生成。</

DanceOPD

NewFree图像开源

DanceOPD 是一种在单个 flow-matching 模型中组合多种图像生成能力的 on-policy 生成场蒸馏框架。它将每种源能力视为一个速度场，并训练学生模型在其自身访问到的状态上查询被选中的场。

该方法解决了目标场歧义、状态分布不匹配和轨迹查询相关性问题。它使用硬路由为每个样本选择一个冻结的能力场，在停止梯度的学生

Lift4D

NewFree3D开源

Lift4D 是一种测试时优化框架，用于从单目野外视频中重建完整的动态 4D 物体。它旨在恢复几何、外观和形变，包括相机从未直接观测到的区域。

该方法会调整单视图 3D 重建模型，通过因果潜变量条件生成时间一致的逐帧 3D 预测。这些预测用于初始化可变形的 3D Gaussian Splatting 表示，随后再通过感知遮挡的外观

Arbor 3D

NewFree3D开源

Arbor 3D 是一种使用显式几何条件控制的 3D 资产生成方法。它引入约束网格作为原生控制接口，用于告诉文本条件 3D 生成器几何体应出现在哪里、哪些区域应保持为空，以及应接触哪些表面。

该方法在保持文本条件生成器和几何编码器冻结的同时，训练几何投影、位置嵌入、摘要模块和 grounding 适配器。Hull、avoidanc

OmniDirector

NewFree视频开源

OmniDirector 是一个相机运动克隆系统，用于对参考视频中的源图像进行动画处理，包括多镜头相机运动，无需交叉配对训练数据。它的目标是动态摄像机运动、多镜头过渡、场景概括和特殊摄像机技术。

该方法通过根据空 3D 空间中的参考摄像机姿势渲染的摄像机网格来表示摄像机运动。在训练期间，该相机网格与其他控件一起注入到 MMDiT

Free AI

Agents-A1

LUNA

OmniContact

PhysiFormer

LiveEdit

Representation Distribution Matching

Perceptive Behavior Foundation Model

MuSViT

Brain2Qwerty

MrFlow

ViDiHand

Fish Audio S2.1 Pro

Ornith-1.0

PerceptionDLM

Wan Streamer v0.1

DomainShuttle

DanceOPD

Lift4D

Arbor 3D

OmniDirector

Check out our YouTube for AI news & in-depth tutorials!