寻找最新最佳的开源人工智能。浏览最全面的AI数据库,每日持续更新。
最新
Gemma 3 是 Google 最新的开放模型系列,旨在为开发者和组织提供先进的语言能力。Gemma 3 采用与 Google 旗舰 Gemini 模型相同的研究和技术构建而成,提供了一套紧凑、高性能的语言模型,可部署于各种应用。新版本引入了 2B、9B 和 27B 参数大小的模型,每个模型都经过优化,可在云端和本地硬件上进行高效推理和微调。Gemm
Lumina-mGPT 2.0 是一个先进的独立自回归模型,旨在将广泛的图像生成任务统一到一个统一的框架中。它采用仅解码器的架构从零构建,将大型语言模型中常用的顺序预测原理应用于图像像素和标记领域。这使得 Lumina-mGPT 2.0 能够根据先前的上下文预测下一个图像标记,从而生成连贯而复杂的视觉效果。与许多依赖于组合独立组件的模型不同,Lumin
SkyReels-A2 是一款先进的开源视频生成框架,能够将人物、物体和背景等多种视觉元素合成到以文本为主导的连贯场景中,从而创作出可控的高质量视频。该框架基于先进的视频扩散变换器架构,采用双分支编码系统精确控制参考图像,确保生成的视频中每个元素的高保真度和一致性。这种创新的元素到视频 (E2V) 方法能够生成具有专业级构图、光照和交互效果的动态多元素
SpatialLM 是一个先进的 3D 大型语言模型,专门用于处理和解读 3D 点云数据,将非结构化几何信息转换为结构化且语义丰富的 3D 场景表征。它可以识别和分类墙壁、门窗等建筑元素,并提供带有精确语义标签的定向边界框。与早期需要专用硬件进行数据采集的方法不同,SpatialLM 支持多种输入源,包括单目视频序列、RGBD 图像和 LiDAR 传感
SkyReels-V2 是由 Skywork AI 开发的先进开源视频生成框架,能够创建具有高视觉和运动质量的无限长电影级视频。该模型支持多种应用,包括文本转视频生成、图像转视频合成、故事生成、摄像机引导以及元素转视频合成。其架构集成了用于深度视频理解的多模态大型语言模型、多阶段渐进式训练策略、用于增强运动真实感的强化学习,以及用于无缝生成长视频的扩散
EasyControl 是一个新颖的框架,旨在为扩散变换器 (DiT) 模型添加高效灵活的条件控制,以解决新兴 DiT 生态系统面临的挑战,例如缺乏成熟的插件支持、效率低下以及多条件协调困难。与传统的基于 UNet 的扩散模型不同,EasyControl 引入了一个轻量级的条件注入 LoRA(低秩自适应)模块,该模块可独立处理条件信号,而无需修改基础模
“分割视频中的任意运动”是一种新颖的方法,旨在通过将长距离轨迹运动线索与基于 DINO 模型的强大语义特征相结合,精确分割视频序列中的运动对象。传统的运动分割方法通常依赖于光流,而光流难以处理局部运动、复杂变形、运动模糊和背景干扰,导致分割结果不理想。该方法通过整合时空轨迹注意力机制和运动语义解耦嵌入来克服这些挑战,该方法优先考虑运动线索,同时利用语义
UNO 是由字节跳动开发的通用图像生成框架,旨在为内容创作者和设计师提供前所未有的控制力和灵活性,从而生成高质量的图像。UNO 秉承“从少到多”的泛化原则,使用户能够创建具有出色一致性和保真度的单主题和复杂的多主题场景。该框架利用先进的扩散模型和创新的训练技术,确保特定对象或人物在不同图像中保持其独特特征,从而解决了 AI 驱动图像生成中长期存在的难题
AccVideo 是一个新一代框架,旨在显著加速视频扩散模型的推理,且不牺牲输出质量。传统的视频扩散模型以其生成高质量逼真视频的能力而闻名,但其迭代去噪过程通常需要大量的推理步骤,导致生成时间长且计算成本高昂。AccVideo 通过引入一种新颖的蒸馏方法解决了这一瓶颈。该方法利用合成数据集,使模型能够从多个高效的去噪轨迹中学习。这种方法消除了冗余数据点
InfiniteYou 是由字节跳动开发的一款先进的身份保留图像生成框架,旨在创建高度逼真且多样化的个人照片,同时保留其独特的面部特征。InfiniteYou 基于强大的 FLUX Diffusion Transformer 架构构建,用户只需提供参考照片和文本提示,即可在任何想象的场景或风格下生成无数张自己的新照片。与普通的换脸工具不同,Infini
HoloPart 是一个用于生成式 3D 部件非模态分割的尖端开源框架,旨在彻底改变 3D 模型的分解和编辑方式。传统的 3D 模型,无论是手工制作、扫描还是生成的,通常都以单一、未分割的网格形式存在,这使得分离、编辑或为各个组件制作动画变得非常困难。HoloPart 通过引入 3D 部件非模态分割的概念来解决这一挑战,该概念超越了可见表面分割,即使部
Pyramid Flow 是一种创新的开源 AI 视频生成模型,由北京大学、北京邮电大学和快手科技的研究人员共同开发。这项尖端技术代表了 AI 生成视频内容领域的重大进步,可提供长达 10 秒的高质量视频片段。
该模型采用一种称为金字塔流匹配的新技术,可大幅降低与视频生成相关的计算成本,同时保持出色的视觉质量。这种方法
LivePortrait:带拼接和重定向控制的高效人像动画。该框架由快手科技团队开发,旨在从单一源图像合成逼真的视频。LivePortrait 使用外观参考和来自各种输入(例如驾驶视频、音频、文本或生成)的运动数据,在计算效率和可控性之间取得平衡。
关键创新在于其基于隐式关键点的框架,它有别于主流的基于扩散的方法,可增
Dolly AI 是 Databricks 开发的大型语言模型 (LLM),旨在增强人工智能理解和遵循用户指令的能力。该平台以专注于指令调整而脱颖而出,这使其能够根据自然语言提示生成高质量的输出。通过使 AI 更易于访问和用户友好,Dolly 旨在使企业和开发人员能够将高级语言处理集成到他们的应用程序中,而无需大量的编码知识或资源。
SignEasyNow 是一个数字文档管理平台,旨在促进无缝电子协议并简化企业(尤其是初创企业)的签署流程。该平台结合了各种功能,旨在提高生产力、降低成本并简化与文档处理相关的复杂性。通过利用先进的技术,SignEasyNow 为用户提供了高效创建、管理和签署文档的工具,使其成为希望优化工作流程的组织的理想解决方案。
SignE
Magika 是一款新型的 AI 文件类型检测工具,它依靠深度学习的最新进展来提供准确的检测。在底层,Magika 采用高度优化的自定义 Keras 模型,该模型仅重约 1MB,即使在单个 CPU 上运行时也能在几毫秒内实现精确的文件识别。在对超过 100 万个文件和超过 100 种内容类型(涵盖二进制和文本文件格式)的评估中,Magika 实现了 9
AI-Flow 是一个开源平台,旨在通过用户友好的界面促进多种 AI 模型的集成和管理。AI-Flow 面向开发人员、数据科学家和内容创建者,允许用户创建复杂的工作流程,无缝连接各种 AI 服务。通过利用拖放界面,用户可以设计和执行包含不同 AI 功能的工作流程,从而更轻松地构建有效利用人工智能的应用程序。
AI-Flow 的核
介绍 Make me Epic - 将您的 LinkedIn 个人资料变成传奇头衔的终极工具!使用 Make me Epic,您可以将您的专业个人资料变成真正非凡的东西。想象一下像马克·扎克伯格一样被称为“龙之女王”,或者像伊隆·马斯克一样被称为“电马大师”。借助 Make me Epic,您可以创建史诗般的标题来展示您独特的技能和成就,使您的 Lin
Jan 是一个开源 AI 平台,旨在完全离线运行在个人电脑上,为用户提供无需互联网连接即可利用人工智能的高级功能。该软件将标准计算机转变为强大的 AI 机器,允许用户在本地执行各种 AI 模型,从而增强隐私和对数据的控制。Jan 的下载量超过 170 万次,在寻求基于云的 AI 解决方案的强大替代方案的个人和组织中广受欢迎。
J
NOLU 是一款人工智能工具,旨在促进与 OpenAI GPT-3 引擎的无缝交互,为用户提供一种直接有效的文本响应生成方式。该平台面向广泛的用户,包括学生、专业人士以及任何有兴趣将人工智能用于各种应用(如研究、内容创建和随意查询)的人。NOLU 旨在让每个人都能使用先进的人工智能技术,无论他们的技术专长如何。
NOLU 的主要