原始模型 CogVideo 是一个具有 94 亿个参数的大规模预训练转换器。它基于 540 万个文本-视频对进行训练,继承了 CogView2 文本转图像模型的知识。这种继承显著降低了训练成本,并有助于解决文本-视频数据集中数据稀缺和相关性弱的问题。CogVideo 引入了一种多帧速率训练策略,以更好地对齐文本和视频片段,从而提高了生成准确性,特别是对于复杂的语义运动。
CogVideoX 是原始模型的演变,进一步完善了视频生成功能。它使用 T5 文本编码器将文本提示转换为嵌入,类似于其他高级 AI 模型,如 Stable Diffusion 3 和 Flux AI。CogVideoX 还采用 3D 因果 VAE(变分自动编码器)将视频压缩到潜在空间,将图像生成模型中使用的概念推广到视频领域。
这两种模型都能够生成高分辨率视频(480x480 像素),具有令人印象深刻的视觉质量和连贯性。它们可以创建各种内容,从简单的动画到具有移动物体和角色的复杂场景。这些模型特别擅长生成具有超现实或梦幻般的品质的视频,以富有创意和意想不到的方式解释文本提示。
这些模型的主要优势之一是它们能够在用户的 PC 上本地生成视频,从而提供基于云的服务的替代方案。这种本地生成功能使用户可以更好地控制流程,并且可能缩短周转时间,具体取决于用户的硬件。
CogVideo 和 CogVideoX 的主要功能包括:
- 文本到视频生成:直接从文本提示创建视频内容。
- 高分辨率输出:以 480x480 像素分辨率生成视频。
- 多帧速率训练:改进文本和视频之间的对齐,以实现更准确的表示。
- 灵活的帧速率控制:能够调整连续帧中变化的强度。
- 双通道注意力:对预训练的文本到图像模型进行有效微调以生成视频。
- 本地生成功能:在本地硬件上运行模型,以加快处理速度并提高隐私性。
- 开源可用性:代码和模型可公开用于研究和开发。
- 大规模预训练:在数百万个文本-视频对上进行训练以获得多样化和高质量的输出。
- 从文本到图像模型的继承:利用来自高级图像生成模型的知识。
- 最先进的性能:在人工评估中优于许多公开可用的模型。