该模型展现出卓越的行为生动性和感知真实性,捕捉到细微的人类细微差别,以实现复杂交互状态之间的自然过渡。它能够仅根据单个参考图像对各种角色风格保持高保真合成。FlowAct-R1 包括训练和推理阶段,例如通过自回归适应将基础全注意力 DiT 转换为流式 AR 模型,以及联合音频-运动微调以实现更好的唇形同步和身体动作。
FlowAct-R1 表现出高度响应的交互能力,在实时、低延迟的即时通信场景中展现出巨大的潜力。它对各种角色和运动风格具有鲁棒性,并且在人类偏好评估中优于最先进的方法。该框架支持无限时长,以实现真正无缝的交互,适用于直播和视频会议等应用。它实现了实时流式传输、无限时长生成和卓越的行为自然度。

