寻找最新最佳的想象人工智能。浏览最全面的AI数据库,每日持续更新。
最新
欢迎来到 Skywork-UniPic 代码库,该代码库托管统一多模态模型的模型权重和官方实现。该代码库包含两种不同的建模范式:UniPic-1.0 和 UniPic-2.0 系列。UniPic-1.0 是一种统一的自回归建模方法,用于联合视觉理解和生成,使单个 Transformer 能够同时处理感知和合成任务。这种方法可以更高效、更有效地处理视觉数
Yume 是一个交互式世界生成模型,它能够利用图像、文本或视频创建动态世界,允许通过外围设备或神经信号进行探索和控制。该模型采用精心设计的框架,包含四个主要组件:摄像机运动量化、视频生成架构、高级采样器和模型加速。该框架使 Yume 能够生成高保真且交互式的视频世界,克服了先前工作中存在的局限性。
Yume 的技术框架包含多个关
ObjectClear 是一个物体移除模型,它利用物体-效应注意力机制,联合消除目标物体及其相关效应,同时保持背景一致性。该模型旨在支持带效应的物体移除研究,结合了相机捕获数据和模拟数据。ObjectClear 可用于各种应用,例如图像编辑、视频编辑和计算机视觉任务。
该模型使用名为 OBER(物体-效应移除)的混合数据集,该数
SeC 是一个概念驱动的分割框架,通过渐进式概念构建来推进复杂视频对象分割。它从传统的特征匹配转向渐进式构建和利用以对象为中心的高级表示。SeC 采用大型视觉语言模型 (LVLM) 来整合不同帧之间的视觉线索,从而构建稳健的概念先验。这种方法使 SeC 能够处理剧烈的视觉变化、遮挡和复杂的场景变化,而这些对于现有技术来说都是挑战。
DAViD 是一种数据高效且精准的视觉模型,可在各种任务中实现高精度和稳健性。该模型基于一个规模虽小但保真度极高的合成数据集进行训练,该数据集提供了出色的细节和完美的标签。这种方法能够为数据来源、使用权和用户同意提供强有力的保障。程序化数据合成还能对数据多样性进行明确的控制,从而解决训练模型中的不公平性问题。
用于训练 DAVi
Moondream 是一款先进的开源视觉语言模型,旨在将先进的图像理解技术应用于广泛的应用领域。与需要大量训练数据和繁重基础设施的传统计算机视觉系统不同,Moondream 的运行效率极高且简洁易用。其架构基于 CLIP 驱动的视觉编码器(可将图像转换为丰富的特征表示)和专用投影仪(可将这些特征转换为适合自然语言处理的格式)。这使得 Moondream
字节跳动 Seed 1.5-VL 是一款强大高效的视觉语言基础模型,专为高级通用多模态理解和推理而设计。它以相对适中的架构实现了顶级性能,配备 532M 视觉编码器和 20B 活动参数 MoE LLM。该模型在复杂推理、OCR、图表理解、视觉基础构建、3D 空间理解和视频理解等多项功能方面均表现出色。
Seed1.5-
EdgeTAM 是由 Facebook Research 开发的以研究为导向的框架,专注于高效准确的语义分割,尤其针对边缘设备量身定制。EdgeTAM 的核心创新在于其使用了基于 Transformer 的注意力模块 (TAM),这些模块经过优化,可在极低的计算开销下实现高性能。这使得 EdgeTAM 非常适合部署在资源受限的环境中,例如手机、嵌入式系
EDGS 是一种先进的计算机视觉模型,旨在提高图像边缘检测的准确性和鲁棒性。与仅依赖手动设计滤镜或基于有限注释的监督学习的传统边缘检测方法不同,EDGS 利用生成式监督模型提供高质量的边缘预测。该模型使用大量图像和相应的边缘图进行训练,并结合生成模型,即使在具有挑战性的场景下也能合成逼真的边缘特征。这种方法使 EDGS 能够捕捉细微的边界和精细的细节,