CogVideo & CogVideoX

原始模型 CogVideo 是一个具有 94 亿个参数的大规模预训练转换器。它基于 540 万个文本-视频对进行训练，继承了 CogView2 文本转图像模型的知识。这种继承显著降低了训练成本，并有助于解决文本-视频数据集中数据稀缺和相关性弱的问题。CogVideo 引入了一种多帧速率训练策略，以更好地对齐文本和视频片段，从而提高了生成准确性，特别是对于复杂的语义运动。

CogVideoX 是原始模型的演变，进一步完善了视频生成功能。它使用 T5 文本编码器将文本提示转换为嵌入，类似于其他高级 AI 模型，如 Stable Diffusion 3 和 Flux AI。CogVideoX 还采用 3D 因果 VAE（变分自动编码器）将视频压缩到潜在空间，将图像生成模型中使用的概念推广到视频领域。

这两种模型都能够生成高分辨率视频（480x480 像素），具有令人印象深刻的视觉质量和连贯性。它们可以创建各种内容，从简单的动画到具有移动物体和角色的复杂场景。这些模型特别擅长生成具有超现实或梦幻般的品质的视频，以富有创意和意想不到的方式解释文本提示。

这些模型的主要优势之一是它们能够在用户的 PC 上本地生成视频，从而提供基于云的服务的替代方案。这种本地生成功能使用户可以更好地控制流程，并且可能缩短周转时间，具体取决于用户的硬件。

CogVideo 和 CogVideoX 的主要功能包括：

文本到视频生成：直接从文本提示创建视频内容。
高分辨率输出：以 480x480 像素分辨率生成视频。
多帧速率训练：改进文本和视频之间的对齐，以实现更准确的表示。
灵活的帧速率控制：能够调整连续帧中变化的强度。
双通道注意力：对预训练的文本到图像模型进行有效微调以生成视频。
本地生成功能：在本地硬件上运行模型，以加快处理速度并提高隐私性。
开源可用性：代码和模型可公开用于研究和开发。
大规模预训练：在数百万个文本-视频对上进行训练以获得多样化和高质量的输出。
从文本到图像模型的继承：利用来自高级图像生成模型的知识。
最先进的性能：在人工评估中优于许多公开可用的模型。

Subscribe to the AI Search Newsletter