HunyuanVideo-1.5

Free 视频内容生成

网站推广

关键功能

轻量级高性能架构

视频超分辨率增强

端到端训练优化

支持文本到视频和图像到视频生成

可在消费级 GPU 上流畅运行

具有 83 亿参数扩散 Transformer 的高效架构

创新的 SSTA 机制，降低计算开销

多阶段渐进式训练策略

该模型提出了一种高效的架构，集成了 83 亿参数的扩散Transformer (DiT) 和一个 3D 因果 VAE，在空间维度上实现了 16 倍的压缩率，在时间轴上实现了 4 倍的压缩率。此外，创新的 SSTA（选择性和滑动窗口注意力）机制会剪除冗余的时空 kv 块，显著降低长视频序列的计算开销并加速推理。该模型还开发了一个高效的少步超分辨率网络，可将输出放大到 1080p，同时增强清晰度和校正失真。

该模型采用多阶段、渐进式的训练策略，涵盖了从预训练到后训练的整个流程。结合 Muon 优化器以加速收敛，这种方法全面优化了运动连贯性、美学质量和用户偏好对齐，实现了专业级的*内容生成。该模型提供了一个统一的框架，能够跨多种时长和分辨率实现高质量的文本到视频和图像到视频生成。广泛的实验表明，这个紧凑而高效的模型在开源模型中树立了新的最先进水平。

在您的网站添加此徽章，以获得更多点赞并登上搜索结果顶部！

HunyuanVideo-1.5

关键功能

Subscribe to the AI Search Newsletter