SkyReels-V2 的训练过程细致而渐进,从低分辨率预训练开始,经过多个监督式微调和强化学习阶段,以优化运动动态和视觉保真度。该系统集成了 SkyCaptioner-V1,这是一款专业的视频字幕生成器,经过训练后能够理解镜头语言的细节,包括摄像机角度、角色位置和表情,从而实现对电影元素的精准控制。此外,该模型采用先进的数据处理流程,并进行严格的过滤和人机交互验证,以确保从各种影视内容中获取高质量的训练数据。其高效的计算设计支持在高端 GPU 上进行优化的训练和推理,使其能够用于研究和创意制作。
SkyReels-V2 提供灵活且可扩展的部署选项,支持多 GPU 推理和优化技术(例如量化和精炼),以降低资源需求。它在公共基准测试中展现出卓越的性能,在视频质量、语义一致性和指令遵循性方面均优于领先的开源模型。该平台非常适合内容创作者、电影制作人和开发者,他们希望根据文本或视觉提示,通过可自定义的摄像机方向和多主题连贯性,生成专业品质的视频。 SkyReels-V2 现已提供全面的开源代码和模型权重,旨在鼓励社区驱动的创新,并使其在影院级 AI 视频生成领域得到广泛应用。
主要功能包括:
- 基于扩散强制框架的无限长影院级视频生成
- 用于深度视频理解和控制的多模态大型语言模型
- 包括强化学习在内的渐进式多阶段训练,用于运动增强
- 专用 SkyCaptioner-V1,用于细致的镜头语言理解
- 支持文本转视频、图像转视频、故事生成和元素转视频任务
- 基于量化和提炼技术优化的多 GPU 推理
- 开源,包含代码、模型权重和丰富的文档