寻找最新最佳的多媒体人工智能。浏览最全面的AI数据库,每日持续更新。
最新
OmniGen2 是一个强大而高效的生成模型,具有用于文本和图像模态的两个不同的解码通路,利用非共享参数和解耦的图像分词器。它在四个主要能力上具有竞争力:视觉理解、文本到图像生成、指令引导的图像编辑和上下文内生成。OmniGen2 是一个先进的多模态生成模型,可以解释和分析图像内容,根据文本提示生成高保真图像,并以高精度执行复杂的图像修改。
Ovi 是一个先进的音视频生成系统,仅从文本或文本与图像的组合作为输入,即可创建同步的视频剪辑。它包含一个基于镜像双骨干架构的高质量预训练 50 亿参数音频模型,以及一个 10 亿参数的融合分支。该系统擅长为视频内容生成精确的唇形同步,而无需明确的面部边界框,这完全是通过数据驱动的学习方法实现的。
这项尖端技术自然支持多说话人和多轮