该框架集成了全面的数据处理流程,可构建提示、参考图像和视频的三元组,以支持稳健的训练。它包含一个空间特征分支,使用细粒度变分自编码器 (VAE) 进行详细的元素编码,以及一个语义特征分支,使用 CLIP 视觉编码器来捕捉更深层次的上下文信息。这些功能通过带有交叉注意力层的扩散变换器集成,在元素一致性和全局场景与文本提示的对齐之间取得平衡。SkyReels-A2 还优化了推理速度和稳定性,允许在单个 RTX 4090 GPU 上在 80 秒内生成 544p 视频,并支持多 GPU 并行和低 VRAM 环境。
SkyReels-A2 旨在通过显著降低制作高质量、可定制视频内容的门槛来彻底改变创意工作流程。其开源版本鼓励广泛采用并集成到现有流程中,包括支持 ComfyUI 以促进用户友好的图形交互。该模型支持多个版本,包括即将发布的版本,能够以更高分辨率生成无限长度的视频。 SkyReels-A2 能够生成包含多个交互角色和背景的复杂场景,为虚拟商务、多媒体制作和交互式媒体提供了巨大的潜力,突破了个性化和实时视频生成的界限。
主要功能包括:
- 元素到视频 (E2V) 框架,融合了角色、物体和背景
- 采用细粒度 VAE 和 CLIP 视觉编码器的双分支编码,用于空间和语义特征
- 采用交叉注意力机制的扩散变换器架构,用于元素和场景的一致性
- 优化的推理功能,可在单个 GPU 上 80 秒内生成 544p 视频
- 支持多 GPU 并行处理和低 VRAM 优化
- 开源,集成支持 ComfyUI 图形界面
- 多个模型版本,包括即将推出的无限版本长度和更高分辨率的视频生成