OmniHuman-1 的核心旨在使用最少的输入(通常仅需一张参考图像和各种运动信号,如音频或视频)生成高度逼真的人体视频。该系统的与众不同之处在于它能够以任何宽高比和身体比例制作视频,无论是特写肖像、半身还是全身照。这种多功能性使 OmniHuman-1 适用于娱乐、媒体制作、虚拟现实和互动体验等行业的广泛应用。
OmniHuman-1 背后的技术基于 Diffusion Transformer 框架,该框架采用了一种新颖的数据缩放方法。通过将与运动相关的条件混合到训练阶段,系统可以利用大规模混合条件数据,克服阻碍以前方法的数据稀缺问题。这种方法使 OmniHuman-1 能够生成具有全面运动、光照和纹理细节的视频,这些视频可以紧密模仿真实的人类动作和外观。
OmniHuman-1 最令人印象深刻的方面之一是它能够处理各种音乐风格并适应多种身体姿势和歌唱形式。该系统擅长重现高音调的歌曲,并为不同类型的音乐显示不同的动作风格。这使得它特别适合制作音乐视频、虚拟音乐会或任何需要同步音频和视觉元素的内容。
在语音驱动的动画方面,OmniHuman-1 在处理手势方面取得了重大进展,这是以前的端到端模型一直面临的挑战。该系统可生成高度逼真的效果,与人类讲话时的自然动作非常吻合,从而增强了所生成视频的整体可信度。
OmniHuman-1 的功能不仅限于人类对象。该系统还可以处理各种视觉风格,包括卡通、人造物体和动物。这种灵活性为跨不同媒介和风格的创意内容生成开辟了新的可能性。
OmniHuman-1 的主要功能:
OmniHuman-1 代表了人体视频生成领域的重大进步,为人体动画提供了前所未有的灵活性和质量。它能够通过最少的输入创建逼真的视频,再加上其支持的广泛风格和功能,使其成为内容创建者、研究人员和开发人员在与计算机图形学和人工智能相关的各个领域工作的强大工具。