FantasyTalking 的一项关键创新是其以面部为中心的交叉注意力模块,它取代了传统的参考网络,从而在整个动画过程中更好地保留主体的身份。该模块确保即使模型生成富有表现力和动态的动作,原始肖像的独特面部特征和表情也能保留下来。此外,FantasyTalking 集成了运动强度调制网络,允许用户精确控制面部表情和肢体动作的强度和风格。这使得生成的视频不仅与语音同步,而且情感细腻、动作自然,增强了动画角色的真实感和参与度。
FantasyTalking 以其多功能性和易用性而著称。它支持从照片级到卡通级的各种角色风格,并且可以为各种身体姿势的人物和动物制作动画,包括特写、半身和全身姿势。开源版本包含推理代码和模型权重,可随时用于研究、创意项目以及集成到更广泛的视频生成工作流程中。大量评估表明,FantasyTalking 在视频质量、身份保存、运动多样性和唇部同步方面优于之前的方法,使其成为逼真、可控的说话肖像生成的领先解决方案。