该方法的工作原理是,首先通过测量连续帧对应潜在向量之间的距离来推导外观去偏的时间表征。这突显了模型预测的隐式时间结构。然后,FlowMo 通过测量时间维度上的块级方差来估计运动连贯性,并引导模型在采样过程中动态地降低该方差。事实证明,这种方法能够显著提升运动连贯性,且不会牺牲视觉质量或快速对齐。
FlowMo 已在多个文本转视频模型上进行了评估,证明了其在增强运动连贯性方面的有效性。与基础模型和其他方法(例如 FreeInit)的定性比较表明,FlowMo 能够生成更连贯、更逼真的运动。该方法易于实现,可作为增强预训练视频扩散模型时间保真度的即插即用解决方案。FlowMo 能够提升运动连贯性,使其成为视频生成应用的宝贵工具。