寻找最新最佳的视觉人工智能。浏览最全面的AI数据库,每日持续更新。
最新
Hunyuan OCR 是腾讯开发的最先进的端到端视觉语言模型,基于原生多模态架构构建,拥有 10 亿参数。它将文本检测、识别、解析、信息提取和翻译整合到一个统一的管道中,无需多个专业模型即可降低部署复杂性。该模型擅长处理复杂的文档,包括发票、收据、身份证和视频字幕,同时保持高准确性并保留布局和阅读顺序。
凭借其轻量级架构,Huny
Meta Segment Anything Model 3 (SAM 3) 是一种统一的模型,用于使用文本、示例和视觉提示对图像和视频中的对象进行检测、分割和跟踪。该模型通过引入可提示的概念分割能力,找到并分割由文本或示例提示定义的所有概念实例,克服了传统模型的局限性。SAM 3 接受文本提示——开放词汇的简短名词短语——以及图像示例提示,消除了固定标
SAM 3D 是一个强大的 3D 重建模型,能够从 2D 图像创建详细的 3D 场景。该模型是利用大规模真实世界数据来解决物理世界的复杂性和丰富性的一个重要进步。通过 SAM 3D,我们推出了两个新模型:SAM 3D Objects,它实现了物体和场景重建;SAM 3D Body,它专注于人体和形状估计。这两个模型都提供了强大、最先进的性能,将静态 2
Depth Anything 3 (DA3) 是一个能够从任意数量的视觉输入(有或没有已知的相机姿态)中预测空间一致几何形状的模型。DA3 带来了两个关键的见解:单个纯粹的 Transformer 作为骨干网络就足够了,无需架构上的专业化;以及单一的深度射线预测目标使得复杂的**多任务学习**变得不必要。通过我们的师生训练范式,该模型在细节和泛化性方面
SpatialTrackerV2 是一个用于 3D 点追踪的全新框架,可估算单目视频中任意 2D 像素的世界空间 3D 轨迹。与以往依赖离线深度和姿态估计器的方法不同,我们的方法将 3D 运动分解为场景几何、摄像机自运动和细粒度的逐点运动,所有这些都在一个完全可微分的端到端架构中进行。这种统一的设计支持跨多种数据源进行可扩展的训练,包括合成序列、摆拍的
BFF AI 是您满足所有文本、图像和代码创建需求的终极伴侣。BFF AI 具有广泛的功能和能力,可作为您的智能写作助手、图像生成器、代码生成器、虚拟助手等。利用触手可及的人工智能功能提升您的内容创建过程。
BFF AI 的主要功能包括:
UberCreate 是一款终极 AI 创作工具,将 12 种不同的 AI 工具整合到一个平台中。它利用 GPT 4、Sable Diffusion 和 Eleven Labs Models 等先进技术,提供强大而高效的内容创作解决方案。无论您需要 AI 聊天机器人、文章生成、模板、图像创建、代码编写、视觉分析、转录还是画外音,UberCreate 都