Live Avatar 是一个实时、流式传输且长度无限的交互式虚拟形象视频生成框架。它由一个 140 亿参数的扩散模型驱动，该模型在 5 块 H800 GPU 上以 4 步采样达到 20 FPS。该框架支持分块自回归处理，能够生成长达 10,000 秒以上的流式视频。这使得通过麦克风和摄像头进行自然的面对面对话成为可能，虚拟形象会实时响应并立即提供视觉反馈。

Live Avatar | 寻找最新最热门的视频AI | 浏览最全面的AI数据库

Live Avatar 是一个实时、流式传输且长度无限的交互式虚拟形象视频生成框架。它由一个 140 亿参数的扩散模型驱动，该模型在 5 块 H800 GPU 上以 4 步采样达到 20 FPS。该框架支持分块自回归处理，能够生成长达 10,000 秒以上的流式视频。这使得通过麦克风和摄像头进行自然的面对面对话成为可能，虚拟形象会实时响应并立即提供视觉反馈。 Live Avatar 框架通过使用分布匹配蒸馏（Distribution Matching Distillation）和时间步强制流水线并行（Timestep-forcing Pipeline Parallelism）技术实现了实时流式传输性能。这些技术使模型能够以快于播放的速度生成帧，并支持基于先前帧的无界、连续流式扩展。与基线相比，这带来了 84 倍的 FPS 提升，使得在不使用量化的情况下，实时视频生成速度超过 20 FPS。 Live Avatar 还解决了长期自回归生成中可能出现的退化问题，例如身份漂移和颜色偏移。该框架使用滚动 RoPE（Rolling RoPE）、自适应注意力汇（Adaptive Attention Sink）和历史损坏（History Corrupt）等策略来减轻这些问题，并支持无限长度的流式传输超过 10,000 秒而没有质量下降或身份漂移。这使其适用于交互式对话代理和虚拟形象等应用。

Live Avatar

关键功能

Subscribe to the AI Search Newsletter