SkyReels-A2

该框架集成了全面的数据处理流程，可构建提示、参考图像和视频的三元组，以支持稳健的训练。它包含一个空间特征分支，使用细粒度变分自编码器 (VAE) 进行详细的元素编码，以及一个语义特征分支，使用 CLIP 视觉编码器来捕捉更深层次的上下文信息。这些功能通过带有交叉注意力层的扩散变换器集成，在元素一致性和全局场景与文本提示的对齐之间取得平衡。SkyReels-A2 还优化了推理速度和稳定性，允许在单个 RTX 4090 GPU 上在 80 秒内生成 544p 视频，并支持多 GPU 并行和低 VRAM 环境。

SkyReels-A2 旨在通过显著降低制作高质量、可定制视频内容的门槛来彻底改变创意工作流程。其开源版本鼓励广泛采用并集成到现有流程中，包括支持 ComfyUI 以促进用户友好的图形交互。该模型支持多个版本，包括即将发布的版本，能够以更高分辨率生成无限长度的视频。 SkyReels-A2 能够生成包含多个交互角色和背景的复杂场景，为虚拟商务、多媒体制作和交互式媒体提供了巨大的潜力，突破了个性化和实时视频生成的界限。

主要功能包括：

元素到视频 (E2V) 框架，融合了角色、物体和背景
采用细粒度 VAE 和 CLIP 视觉编码器的双分支编码，用于空间和语义特征
采用交叉注意力机制的扩散变换器架构，用于元素和场景的一致性
优化的推理功能，可在单个 GPU 上 80 秒内生成 544p 视频
支持多 GPU 并行处理和低 VRAM 优化
开源，集成支持 ComfyUI 图形界面
多个模型版本，包括即将推出的无限版本长度和更高分辨率的视频生成

Subscribe to the AI Search Newsletter