FlowAct-R1 是一个新颖的框架，能够生成逼真、响应迅速且高保真的拟人化视频，以实现无缝的实时交互。它集成了 MMDiT 主干和分块扩散强加策略，支持连续、任意持续时间的视频生成，同时保持卓越的时间一致性。该框架能够在 480p 分辨率下以约 1.5 秒的首帧时间稳定生成 25 FPS 的视频。该模型展现出卓越的行为生动性和感知真实性，捕捉到细微的人类

FlowAct-R1 | 寻找最新最热门的视频AI | 浏览最全面的AI数据库

FlowAct-R1 是一个新颖的框架，能够生成逼真、响应迅速且高保真的拟人化视频，以实现无缝的实时交互。它集成了 MMDiT 主干和分块扩散强加策略，支持连续、任意持续时间的视频生成，同时保持卓越的时间一致性。该框架能够在 480p 分辨率下以约 1.5 秒的首帧时间稳定生成 25 FPS 的视频。 该模型展现出卓越的行为生动性和感知真实性，捕捉到细微的人类细微差别，以实现复杂交互状态之间的自然过渡。它能够仅根据单个参考图像对各种角色风格保持高保真合成。FlowAct-R1 包括训练和推理阶段，例如通过自回归适应将基础全注意力 DiT 转换为流式 AR 模型，以及联合音频-运动微调以实现更好的唇形同步和身体动作。 FlowAct-R1 表现出高度响应的交互能力，在实时、低延迟的即时通信场景中展现出巨大的潜力。它对各种角色和运动风格具有鲁棒性，并且在人类偏好评估中优于最先进的方法。该框架支持无限时长，以实现真正无缝的交互，适用于直播和视频会议等应用。它实现了实时流式传输、无限时长生成和卓越的行为自然度。

FlowAct-R1

关键功能

Subscribe to the AI Search Newsletter