关键创新在于其基于隐式关键点的框架,它有别于主流的基于扩散的方法,可增强实际应用的泛化、可控性和效率。
该框架包括两个主要阶段:基础模型训练以及拼接和重定向模块训练。最初,外观和运动提取器、扭曲模块和解码器从头开始优化。在第二阶段,拼接和重定向模块进行微调,同时冻结先前训练的组件。这种结构化方法使 LivePortrait 能够以出色的速度实现高质量视频生成,其在 RTX 4090 GPU 上的性能就证明了这一点。该项目还拥有约 6900 万个高质量帧的令人印象深刻的数据集,并采用混合图像-视频训练策略来进一步提高生成质量和泛化能力。
主要特点
- :平衡计算效率和可控性,摆脱主流的基于扩散的方法。
- :使用约 6900 万个高质量帧进行训练。
- :在训练过程中结合图像和视频。
- :通过集成其他数据来提高生成质量。
- :控制眼睛和嘴唇等特定面部特征,以实现更精确的动画。
- :支持各种肖像风格,包括写实、油画、雕塑和 3D 渲染。
- :能够通过对动物数据集进行微调来制作动物肖像动画。
- :在 RTX 4090 GPU 上实现 12.8ms 的生成速度。
- :推理代码和模型可在 GitHub 上获得。