TTM 接受输入图像和用户指定的运动,然后自动构建一个粗略扭曲的参考视频和一个标记受控区域的掩码。图生视频扩散模型以干净的输入图像为条件,并从扭曲参考的噪声版本初始化,以锚定外观同时注入预期的运动。在采样过程中,应用双时钟去噪以强制执行命令的运动并实现自然的动态。
Time-to-Move 实现了运动和外观的联合控制,允许插入原始图像外部的新对象以及修改现有对象的外观。实验证明,在真实感和运动保真度方面,TTM 的性能与基于训练的基线相当或更优。这种灵活的方法产生了没有伪影的逼真动态,使其成为视频生成和操作的有力工具。

