OmniHuman-1

OmniHuman-1 的核心旨在使用最少的输入（通常仅需一张参考图像和各种运动信号，如音频或视频）生成高度逼真的人体视频。该系统的与众不同之处在于它能够以任何宽高比和身体比例制作视频，无论是特写肖像、半身还是全身照。这种多功能性使 OmniHuman-1 适用于娱乐、媒体制作、虚拟现实和互动体验等行业的广泛应用。

OmniHuman-1 背后的技术基于 Diffusion Transformer 框架，该框架采用了一种新颖的数据缩放方法。通过将与运动相关的条件混合到训练阶段，系统可以利用大规模混合条件数据，克服阻碍以前方法的数据稀缺问题。这种方法使 OmniHuman-1 能够生成具有全面运动、光照和纹理细节的视频，这些视频可以紧密模仿真实的人类动作和外观。

OmniHuman-1 最令人印象深刻的方面之一是它能够处理各种音乐风格并适应多种身体姿势和歌唱形式。该系统擅长重现高音调的歌曲，并为不同类型的音乐显示不同的动作风格。这使得它特别适合制作音乐视频、虚拟音乐会或任何需要同步音频和视觉元素的内容。

在语音驱动的动画方面，OmniHuman-1 在处理手势方面取得了重大进展，这是以前的端到端模型一直面临的挑战。该系统可生成高度逼真的效果，与人类讲话时的自然动作非常吻合，从而增强了所生成视频的整体可信度。

OmniHuman-1 的功能不仅限于人类对象。该系统还可以处理各种视觉风格，包括卡通、人造物体和动物。这种灵活性为跨不同媒介和风格的创意内容生成开辟了新的可能性。

OmniHuman-1 的主要功能：

通过单个参考图像和音频或视频输入生成逼真的人体视频

支持任何宽高比和身体比例（肖像、半身、全身）

处理各种音乐风格和歌唱形式

显著改善语音动画中的手势生成

适应不同的视觉风格，包括卡通、人造物体和动物

通过全面的运动、光照和纹理细节生成高质量结果

利用具有多模态运动调节的混合数据训练策略

支持输入多样性，包括具有挑战性的姿势和独特的风格特征

能够生成适用于高音调歌曲和不同音乐类型的视频

提供灵活的输入格式，大多数情况下只需要单个图像和音频

支持多种驱动模式（音频驱动、视频驱动和组合驱动信号）

处理人与物体的交互和具有挑战性的身体姿势

除了逼真的人体表现之外，还适应不同的图像风格

在真实感和输入灵活性方面改进了现有的端到端音频驱动方法

通过将运动相关条件混合到训练阶段来扩展数据

OmniHuman-1 代表了人体视频生成领域的重大进步，为人体动画提供了前所未有的灵活性和质量。它能够通过最少的输入创建逼真的视频，再加上其支持的广泛风格和功能，使其成为内容创建者、研究人员和开发人员在与计算机图形学和人工智能相关的各个领域工作的强大工具。

Subscribe to the AI Search Newsletter