Video-T1

Video-T1 的核心是一个双策略搜索框架，该框架同时利用随机线性搜索和高效的帧树 (ToF) 方法。随机线性搜索并行采样多个噪声候选片段，生成视频片段并根据测试时间验证器选择最佳片段。考虑到该方法的计算需求，ToF 策略通过以自回归方式自适应地扩展和修剪视频分支，提供了一种更高效的替代方案。这使得 Video-T1 能够平衡计算成本和生成质量，即使在资源有限的情况下也能获得高质量的结果。测试时间验证器的集成确保对每个生成的视频进行评估，以确保其与文本提示的一致性、运动稳定性和整体质量。

Video-T1 的测试时间扩展方法已在基于文本的视频生成基准测试中得到广泛验证，并在客观指标和人类偏好一致性方面持续展现出显著的改进。该框架对于常见的提示集和类别（例如场景和物体描述）尤其有效，可提供更丰富的内容表达和更高的成像质量。虽然在运动平滑度和时间闪烁等挑战性方面改进较为有限，但 Video-T1 仍然代表了该领域的重大进步。其开源实现支持多 GPU 推理，专为寻求突破数字视频创作界限的研究人员和开发者而设计。

主要功能包括：

测试时间缩放 (TTS)，用于增强视频生成质量
随机线性搜索和帧树 (ToF) 策略，用于高效推理
测试时间验证器，用于评估快速对齐和视频质量
无需模型重新训练即可显著提高质量
支持多 GPU 推理，用于大规模视频生成
适合研究人员和开发者的开源框架

Subscribe to the AI Search Newsletter