/ LoRA

LoRA AI

寻找最新最佳的LoRA人工智能。浏览最全面的AI数据库，每日持续更新。

LTX-2 Trainer

LTX-2 Trainer 是 Lightricks 的 LTX-2 音频-视频生成模型的训练和微调包。它提供了用于 LoRA 训练、全面微调以及跨视频、音频和联合音视频工作流程的灵活调节的工具和脚本。

该软件包涵盖文本到视频、文本到音频、图像到视频、视频扩展、音频扩展、视频修复、音频修复、视频修复、IC-LoRA 参考、音频到

Warp-as-History

Warp-as-History 是一种相机控制的视频生成方法，可将相机引起的扭曲转变为预训练视频模型的控制接口。它可以在有限的监督下实现视点操纵和摄像机轨迹跟踪，使用视频历史记录不仅仅是简单的上下文。该方法旨在生成交互式视频，用户希望在不添加单独的相机控制模块的情况下引导相机运动。

该技术将所需的摄像机运动转换为摄像机扭曲的伪历史

Dramabox

NewFree音频开源

Dramabox 是 Resemble AI 的富有表现力的文本转语音模型，具有提示驱动的语音克隆和性能控制。它设计用于生成表演语音，其中提示控制说话者的身份、情感、表达、笑声、叹息、呼吸、暂停和过渡。简短的可选语音参考可以克隆目标音色，而文本提示则定义应如何执行该行。

该模型是 LTX-2.3 3.3B 纯音频模型的 IC-Lo

TrackCraft3R

NewFree3D开源

TrackCraft3R 是一种开源密集 3D 跟踪系统，可重新利用预训练的视频扩散变换器进行轨迹预测。给定单目视频以及预测的深度和相机信息，它可以在单次前向传播中预测密集的 3D 轨迹。该项目针对的是从事普通视频输入的运动、几何和跟踪研究的计算机视觉研究人员。

该系统以 Wan2.1-T2V-1.3B 为基础，作为预训练视频扩散

LoRA AI

NewFreemium创作图像建模

该平台是首屈一指的 LoRA 生成工具，利用 Flux LoRA、Kontext LoRA 和 WAN LoRA 等先进技术，提供全面的视觉创作生态系统。它使用户能够超越基本的图像生成，提供训练自定义样式和模型的强大功能，从而确保品牌或艺术风格在众多输出中保持一致。该系统专为需要直观工作流程的初学者和要求精细控制的专业人士而设计，同时承诺提供满足行业标

Stable Video Infinity

Qwen-Image-Edit-2511

NewFree图像编辑创意工具

Qwen-Image-Edit-2511 代表了 Qwen-Image-Edit 系列的先进迭代，它在 2509 版本引入的功能基础上进行了增强，重点提升了卓越的一致性和扩展的功能。该模型基于强大的 20B Qwen-Image 模型构建，擅长指令驱动的图像编辑，允许用户执行低级别的视觉外观修改——例如在保持周围区域不变的情况下添加、移除或更改特定元素

LTX-2

NewPaid创意视频制作

LTX-2 是由 Lightricks 开发的下一代多模态人工智能基础模型，旨在通过将同步的音频和视频生成集成到单个统一的系统中，彻底改变创意视频制作。该模型以其能够以原生 4K 分辨率和高达 50 帧/秒的速度生成电影级质量的内容而脱颖而出，支持最长 10 秒的视频片段。LTX-2 的架构支持实时、高保真的输出，使其适用于从品牌内容、社交媒体到电影和

Wan Animate

Nebius Token Factory

NewFreemium推理模型服务

Nebius Token Factory 是一项企业级推理解决方案，旨在最大限度地提高运行最先进的开源模型的性能和效率。通过利用优化的服务管道和专用端点，用户可以实现亚秒级的延迟和可预测、经济高效的运行，而无需承担通常与机器学习操作相关的开销。该平台专为无缝可扩展性而设计，允许应用程序从初始原型阶段直接发展到高流量生产环境，同时消除了对速率限制或复杂

DiffSensei

NewFree图形漫画世代

DiffSensei 是一个专为生成具有动态多角色控制的漫画而设计的创新框架。它将基于扩散的图像生成器与充当文本兼容身份适配器的多模态大型语言模型 (MLLM) 相结合。这种方法无需直接像素迁移即可实现精确的布局控制，从而可以灵活调整角色的表情、姿势和动作。该框架解决了现有文本转图像生成模型的局限性，这些模型通常无法有效控制多角色场景中角色的外观和交互

EX-4D

NewPaid视频 3D建模

EX-4D 是一个基于深度水密网格的极端视点 4D 视频合成的新型框架。它解决了从单目输入生成高质量可控摄像机视频的难题，尤其是在极端视点下。EX-4D 使用深度水密网格表示，可以明确地模拟可见区域和遮挡区域，即使在极端摄像机姿势下也能确保几何一致性。这种方法使该框架能够生成高质量、物理上一致且时间上连贯的视频。

EX-4D 包

ICEdit

NewFree图像生成照片编辑

ICEdit 是一个创新的开源框架，用于基于指令的图像编辑，它极大地简化了使用自然语言命令修改图像的过程。与需要专业技术知识和手动调整的传统图像编辑器不同，ICEdit 允许用户用简单的英语描述所需的更改，例如“将她的头发变成深绿色”或“添加一顶金色的红宝石王冠”，系统会高精度地解释和应用这些编辑。ICEdit 利用大规模扩散变换器 (Diffusio

EasyControl

New扩散图像控制

EasyControl 是一个新颖的框架，旨在为扩散变换器 (DiT) 模型添加高效灵活的条件控制，以解决新兴 DiT 生态系统面临的挑战，例如缺乏成熟的插件支持、效率低下以及多条件协调困难。与传统的基于 UNet 的扩散模型不同，EasyControl 引入了一个轻量级的条件注入 LoRA（低秩自适应）模块，该模块可独立处理条件信号，而无需修改基础模

BizGen

New内容文档生成

BizGen 是一个先进的文章级可视化文本渲染框架，能够生成格式丰富、视觉引人入胜的商业内容。BizGen 构建于先进的多语言可视化文本生成模型之上，旨在处理结构复杂的超密集布局，支持超过 50 个图层和超过 1,000 个标记的提示。这使得它非常适合创建信息图表、商业报告、数字广告以及其他需要文本和视觉元素无缝集成的内容。通过利用布局引导的交叉注意力

UniAnimate-DiT

New动画片人体运动

UniAnimate-DiT 是一个先进的人体图像动画开源框架，利用大规模视频扩散变换器生成视觉冲击力强且时间一致性高的动画。UniAnimate-DiT 基于强大的 Wan2.1 视频扩散模型，引入了一种精简的方法，利用低秩自适应 (LoRA) 进行高效微调，显著降低了内存开销，同时保持了较高的生成性能。该系统旨在根据一系列目标姿势为单个参考图像制作

InfiniteYou

New影像学个性化

InfiniteYou 是由字节跳动开发的一款先进的身份保留图像生成框架，旨在创建高度逼真且多样化的个人照片，同时保留其独特的面部特征。InfiniteYou 基于强大的 FLUX Diffusion Transformer 架构构建，用户只需提供参考照片和文本提示，即可在任何想象的场景或风格下生成无数张自己的新照片。与普通的换脸工具不同，Infini

WaveSpeedAI

New图像生成媒体制作

WaveSpeedAI 通过其专有的推理框架提供超快的 AI 驱动图像和视频生成，以前所未有的速度实现企业级内容创作。该平台专注于加速生成工作流程，通过 FLUX-dev 和 WAN-2.1 等优化模型，可在 2 秒内生成高质量的图像，2 分钟内生成高质量的视频。其软硬件协同设计最大限度地提高了 B200/H100/A100/RTX 4090 系统的

TensorArt

Flux Lora collection

图片LoRA, 文本转图像

Flux LoRA Collection 是 Flux 文本转图像模型的经过训练的 LoRA（低秩适配器）存储库。此集合为 Black Forest Labs 的 FLUX.1-dev 模型提供了一个经过训练的 LoRA 检查点。XLabs AI 团队已对 Flux 脚本（包括 LoRA 和 ControlNet）进行了微调，并使其可供使用。

LoRA AI

LTX-2 Trainer

Warp-as-History

Dramabox

TrackCraft3R

LoRA AI

Stable Video Infinity

Qwen-Image-Edit-2511

LTX-2

Wan Animate

Nebius Token Factory

DiffSensei

EX-4D

ICEdit

EasyControl

BizGen

UniAnimate-DiT

InfiniteYou

WaveSpeedAI

TensorArt

Flux Lora collection

Check out our YouTube for AI news & in-depth tutorials!