/ AI 模型

AI 模型 AI

寻找最新最佳的AI 模型人工智能。浏览最全面的AI数据库，每日持续更新。

Gemini Live Translate

Gemini Live Translate 是 Google 基于 Gemini 提供的近实时语音翻译体验，面向自然口语对话。公告称它可通过 Google AI Studio、Google Translate 和 Google Meet 使用，重点在于流畅的语音翻译，而不只是文本字幕。

该功能为低延迟听说场景而构建，希望译后的语音

OSCAR World Model

NewFree机器人开源

OSCAR 是一个面向机器人领域的全具身、动作条件世界模型。该项目在 Cosmos-Predict2.5-2B 基础上进行微调，使用统一的 2D 运动学骨架条件来覆盖多种机器人具身形态和一个 MANO 手模型，并结合机器人遥操作与第一人称人类视频数据。

该模型旨在预测不同具身形态下、受动作条件控制的未来视觉观察。通过共享的 2D

Step 3.7 Flash

NewFreemium大语言模型智能体

Step 3.7 Flash 是一个针对现实世界代理的高效多模式 Flash 模型，专为使用工具的代理而设计，这些代理可以理解图像、搜索网络、编排工具以及跨常见工具执行操作。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合，使该工作流程更加实用。 Step 3.7 Flash 不是提供通用演示，而是针对具体的能力差

Pixal3D

NewFree3D开源

Pixal3D 是一个图像到 3D 生成框架，旨在创建与输入图像保持像素对齐的高保真 3D 资源。它解决了图像条件 3D 生成中的常见故障：模型可能会创建合理的几何形状，但最终资产可能会在像素级别偏离参考视图。 Pixal3D 专注于忠实的重建式对应，同时仍然保留完整 3D 资产合成所需的生成灵活性。

该系统以与输入视图一致的方式

ML Intern

NewFree智能体开源

ML Intern 是 Hugging Face 的开源机器学习工程代理，可读取论文、训练模型和发布 ML 模型。它旨在自动化 ML 工作的实际循环，从理解研究想法到运行实验并生成可部署的工件。该产品面向希望人工智能代理能够参与真正的机器学习工作流程而不仅仅是讨论它们的开发人员和研究人员。

该系统很有用，因为机器学习工程通常涉及一

Qwen 3.6 35B A3B

NewFree编程开源

Qwen 3.6 35B A3B 是一个开放的 Qwen 模型，专注于稀疏架构中的代理编码能力。它旨在提供强大的编码和多模式功能，同时激活每个令牌总参数计数的一小部分。这使得它适合那些想要高模型质量和更实用的部署特性的开发人员。

A3B 命名表示稀疏混合式模型，每个 token 约有 3B 个活动参数，使模型能够平衡能力和推理效率

VideoThis

NewFreemium创作视频工作室

VideoThis 是一个综合性平台，旨在通过尖端的、人工智能驱动的工具，赋予创作者、营销人员和企业生成专业级视频的能力。其核心是 Seedance 2.0，一个高度先进的模型，能够将简单的文本提示转化为复杂的、视觉丰富的电影片段、引人入胜的广告以及高度可分享的病毒式短片。整个过程都经过简化，无需任何先前的视频编辑专业知识，使得任何能够描述自己愿景的人

ClawDaddy

NewPaid部署代理托管

ClawDaddy 通过完全抽象化自托管的复杂性，彻底革新了 OpenClaw 代理的部署方式。用户不再需要应对命令行界面、Docker 容器、Node.js 安装和复杂的安全加固措施，只需通过 Telegram 与管理代理进行交互。这种礼宾式设置允许个人在几分钟内部署一个完全运行在自己私有服务器上的功能齐全的代理，将一个可能长达数小时、容易出错的技术

LightOnOCR-2-1B

NewPaid生产力文档管理

LightOnOCR-2-1B 是一款采用 RLVR 训练精炼的主力 OCR 模型，旨在实现最高的准确性，推荐用于大多数 OCR 任务。它是一个高效的端到端 1B 参数视觉-语言模型，用于将文档转换为干净、自然排序的文本。该模型在 OlmOCR-Bench 上实现了最先进的性能，同时比竞争方法更小、更快。

该模型是完全可微的，允许进

FlowAct-R1

NewPaid视频拟人生成

FlowAct-R1 是一个新颖的框架，能够生成逼真、响应迅速且高保真的拟人化视频，以实现无缝的实时交互。它集成了 MMDiT 主干和分块扩散强加策略，支持连续、任意持续时间的视频生成，同时保持卓越的时间一致性。该框架能够在 480p 分辨率下以约 1.5 秒的首帧时间稳定生成 25 FPS 的视频。

该模型展现出卓越的行为生动性和

NovaSR

NewFree音频处理

NovaSR 代表了音频处理技术的突破性进展，它被设计为一个超紧凑的 50kb 模型，能够以惊人的速度和清晰度将低质量的 16kHz 音频转换为原始的 48kHz 输出。这款闪电般快速的升采样器非常擅长修复模糊或压缩的音频源，使其非常适合计算资源有限的应用，例如移动设备、嵌入式系统或实时处理管道。通过利用针对效率优化的最先进的神经网络架构，NovaSR

UniSH

NewPaid重建3D 建模

UniSH 是一个用于联合度量级 3D 场景和人体重建的统一前馈框架。它以单目视频作为输入，能够有效地估计场景几何、相机参数和 SMPL 参数。该框架融合了来自场景重建和 HMR 的强大且不同的先验知识，并通过两个核心组件进行训练，以优化人体表面细节和几何对应关系。

UniSH 的网络架构由重建分支和人体分支组成。重建分支预测每帧的

AI Line Art

NewFreemium插画图像工具

AI 线条艺术生成器是一个复杂的在线工具，旨在以惊人的速度将任何视觉输入（无论是上传的照片还是描述性的文本提示）转换为高质量的专业线条艺术图。该平台消除了手动描边和复杂艺术技能的重大障碍，使广泛的用户群体都能轻松创建详细的线条插图。用户可以快速沉浸在创意可视化中，生成从清晰轮廓到风格化草图的各种输出，适用于从个人项目和手工艺到专业设计模型等各种用途。<

SafeNew AI Humanizer

NewFreemium内容文本润饰

SafeNew 旨在弥合机器生成文本与真实人类表达之间的差距。它专注于将内容生成器的原始输出转化为流畅、自然的散文，在保持原有意义的同时，显著提高可读性和风格。其核心创新在于为每位用户开发专用的私有 AI 模型，确保改写过程是深度个性化的，而不是依赖于通用、共享的算法。这种对个体化的承诺意味着生成的文本反映了独特的语调，这对寻求书面工作可信度的专业人士

Recraft V3

NewFreemium设计创意工具

Recraft 是一个先进的、由人工智能驱动的设计平台，专为专业设计师、插画家、营销人员和内容创作者量身定制。它提供智能自动化工具，简化创意过程，使用户能够生成和编辑高质量的图像、矢量图、徽标和样机。借助 Recraft AI，用户可以将文本提示转换为独特的数字艺术作品和定制插图，使该平台在品牌和营销活动中尤为有价值。

该平台擅长生

OpenAudio S1

NewPaid语音语音合成

OpenAudio S1 是 Fish Audio 推出的先进文本转语音 (TTS) 模型，旨在提供高度自然和富有表现力的语音合成。该模型基于对超过 200 万小时音频数据的大规模训练，实现了与专业人类配音演员几乎无法区分的语音输出。该技术针对视频旁白、播客和游戏角色配音等应用，提供流畅、逼真的语音，捕捉细微的情感差异，使其非常适合专业和创意音频制作。

Hunyuan3D-Part

NewFree图形3D 建模

Hunyuan3D-Part 是一个从图像生成 3D 部件的管道，包含两个关键组件：P3-SAM 和 X-Part。整体网格输入到部件检测模块 P3-SAM 中，以获取语义特征、部件分割和部件边界框。然后，X-Part 从 P3-SAM 的输出生成完整的部件。该管道能够从图像生成高质量的 3D 部件，并应用于计算机视觉、机器人和计算机辅助设计等各个领域