Live Avatar 框架通过使用分布匹配蒸馏(Distribution Matching Distillation)和时间步强制流水线并行(Timestep-forcing Pipeline Parallelism)技术实现了实时流式传输性能。这些技术使模型能够以快于播放的速度生成帧,并支持基于先前帧的无界、连续流式扩展。与基线相比,这带来了 84 倍的 FPS 提升,使得在不使用量化的情况下,实时视频生成速度超过 20 FPS。
Live Avatar 还解决了长期自回归生成中可能出现的退化问题,例如身份漂移和颜色偏移。该框架使用滚动 RoPE(Rolling RoPE)、自适应注意力汇(Adaptive Attention Sink)和历史损坏(History Corrupt)等策略来减轻这些问题,并支持无限长度的流式传输超过 10,000 秒而没有质量下降或身份漂移。这使其适用于交互式对话代理和虚拟形象等应用。

