SkyReels-V2

SkyReels-V2 的训练过程细致而渐进，从低分辨率预训练开始，经过多个监督式微调和强化学习阶段，以优化运动动态和视觉保真度。该系统集成了 SkyCaptioner-V1，这是一款专业的视频字幕生成器，经过训练后能够理解镜头语言的细节，包括摄像机角度、角色位置和表情，从而实现对电影元素的精准控制。此外，该模型采用先进的数据处理流程，并进行严格的过滤和人机交互验证，以确保从各种影视内容中获取高质量的训练数据。其高效的计算设计支持在高端 GPU 上进行优化的训练和推理，使其能够用于研究和创意制作。

SkyReels-V2 提供灵活且可扩展的部署选项，支持多 GPU 推理和优化技术（例如量化和精炼），以降低资源需求。它在公共基准测试中展现出卓越的性能，在视频质量、语义一致性和指令遵循性方面均优于领先的开源模型。该平台非常适合内容创作者、电影制作人和开发者，他们希望根据文本或视觉提示，通过可自定义的摄像机方向和多主题连贯性，生成专业品质的视频。 SkyReels-V2 现已提供全面的开源代码和模型权重，旨在鼓励社区驱动的创新，并使其在影院级 AI 视频生成领域得到广泛应用。

主要功能包括：

基于扩散强制框架的无限长影院级视频生成
用于深度视频理解和控制的多模态大型语言模型
包括强化学习在内的渐进式多阶段训练，用于运动增强
专用 SkyCaptioner-V1，用于细致的镜头语言理解
支持文本转视频、图像转视频、故事生成和元素转视频任务
基于量化和提炼技术优化的多 GPU 推理
开源，包含代码、模型权重和丰富的文档

Subscribe to the AI Search Newsletter