/ 视觉

视觉 AI

寻找最新最佳的视觉人工智能。浏览最全面的AI数据库，每日持续更新。

Claude Fable 5 and Claude Mythos 5

Claude Fable 5 和 Claude Mythos 5 是 Anthropic 发布的前沿模型，被描述为 Mythos 级系统，其中 Fable 5 面向更广泛的一般使用场景，而 Mythos 5 则保留给可信访问计划。公告强调它们在软件工程、知识工作、视觉、科学研究以及长而复杂任务上的能力提升。

这次发布的重点是让高能

Marlin-2B

NewFree视觉开源

Marlin-2B 是一种紧凑的多模态模型，专为图像和视频理解而设计，具有轻量级 2B 级架构。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合，使该工作流程更加实用。 Marlin-2B 不是提供通用演示，而是针对具体的能力差距，并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。

LocateAnything

NewFree视觉开源

LocateAnything 是一种快速视觉语言基础模型，设计用于定位对象、GUI 元素、文档区域、OCR 目标以及根据语言提示进行密集检测。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合，使该工作流程更加实用。 LocateAnything 不是提供通用演示，而是针对具体的能力差距，并为用户提供一种更可控的方式

MiniCPM-V 4.6

NewFree视觉开源

MiniCPM-V 4.6 是一种紧凑的多模态语言模型，用于在边缘和移动设备上高效理解图像和视频。它专为用户需要强大的视觉推理但无法负担大型纯云多模式模型的场景而构建。该模型支持单图像、多图像和视频理解，同时保持计算和令牌成本足够低，适合手机部署和消费级硬件实验。

该架构基于用于视觉的 SigLIP2-400M 和 Qwen3.5

GLM-5V Turbo

NewPaid视觉大语言模型

GLM-5V Turbo 是一种 Z.AI 视觉语言模型，专为图像和文本的快速多模态推理而设计。它是为需要 API 可访问模型的开发人员而构建的，该模型可以检查视觉输入、回答问题、提取信息以及参与结合语言和视觉的代理工作流程。当延迟和吞吐量很重要时，Turbo 定位使其特别有用。

从技术上讲，GLM-5V Turbo 通过 Z.A

clawXiv

NewFree智能体研究档案库

clawXiv被介绍为一个开创性的、免费的发行服务和开放获取的档案库，专门用于研究自主智能体。它填补了一个关键的空白，提供了一个专门的平台，可以在其中快速传播有关智能体行为和能力的最新发现、实验和理论模型。该服务允许研究人员和开发人员立即与对智能体开发的尖端技术感兴趣的社区分享他们的工作，这与既定的预印本服务器的功能相呼应，但完全专注于这个新兴领域。c

Hunyuan OCR

NewFree视觉文档处理

Hunyuan OCR 是腾讯开发的最先进的端到端视觉语言模型，基于原生多模态架构构建，拥有 10 亿参数。它将文本检测、识别、解析、信息提取和翻译整合到一个统一的管道中，无需多个专业模型即可降低部署复杂性。该模型擅长处理复杂的文档，包括发票、收据、身份证和视频字幕，同时保持高准确性并保留布局和阅读顺序。

凭借其轻量级架构，Huny

Meta Segment Anything Model 3

NewFree视觉计算机视觉

Meta Segment Anything Model 3 (SAM 3) 是一种统一的模型，用于使用文本、示例和视觉提示对图像和视频中的对象进行检测、分割和跟踪。该模型通过引入可提示的概念分割能力，找到并分割由文本或示例提示定义的所有概念实例，克服了传统模型的局限性。SAM 3 接受文本提示——开放词汇的简短名词短语——以及图像示例提示，消除了固定标

SAM 3D

NewFree视觉3D 建模

SAM 3D 是一个强大的 3D 重建模型，能够从 2D 图像创建详细的 3D 场景。该模型是利用大规模真实世界数据来解决物理世界的复杂性和丰富性的一个重要进步。通过 SAM 3D，我们推出了两个新模型：SAM 3D Objects，它实现了物体和场景重建；SAM 3D Body，它专注于人体和形状估计。这两个模型都提供了强大、最先进的性能，将静态 2

Depth Anything 3

NewFree视觉3D建模

Depth Anything 3 (DA3) 是一个能够从任意数量的视觉输入（有或没有已知的相机姿态）中预测空间一致几何形状的模型。DA3 带来了两个关键的见解：单个纯粹的 Transformer 作为骨干网络就足够了，无需架构上的专业化；以及单一的深度射线预测目标使得复杂的**多任务学习**变得不必要。通过我们的师生训练范式，该模型在细节和泛化性方面

SpatialTrackerV2

NewPaid追踪3D 视觉

SpatialTrackerV2 是一个用于 3D 点追踪的全新框架，可估算单目视频中任意 2D 像素的世界空间 3D 轨迹。与以往依赖离线深度和姿态估计器的方法不同，我们的方法将 3D 运动分解为场景几何、摄像机自运动和细粒度的逐点运动，所有这些都在一个完全可微分的端到端架构中进行。这种统一的设计支持跨多种数据源进行可扩展的训练，包括合成序列、摆拍的

AskBFF

写作文本生成, 图像生成

BFF AI 是您满足所有文本、图像和代码创建需求的终极伴侣。BFF AI 具有广泛的功能和能力，可作为您的智能写作助手、图像生成器、代码生成器、虚拟助手等。利用触手可及的人工智能功能提升您的内容创建过程。

BFF AI 的主要功能包括：

AI 生成器：轻松生成文本、图像、代

UberCreate

写作内容创作, AI 工具

UberCreate 是一款终极 AI 创作工具，将 12 种不同的 AI 工具整合到一个平台中。它利用 GPT 4、Sable Diffusion 和 Eleven Labs Models 等先进技术，提供强大而高效的内容创作解决方案。无论您需要 AI 聊天机器人、文章生成、模板、图像创建、代码编写、视觉分析、转录还是画外音，UberCreate 都

视觉 AI

Claude Fable 5 and Claude Mythos 5

Marlin-2B

LocateAnything

MiniCPM-V 4.6

GLM-5V Turbo

clawXiv

Hunyuan OCR

Meta Segment Anything Model 3

SAM 3D

Depth Anything 3

SpatialTrackerV2

AskBFF

UberCreate

Check out our YouTube for AI news & in-depth tutorials!