该模型引入了多项关键进步,包括统一的语音编码器、上下文感知的 MoE-TTS(专家混合文本到语音)以及由 3D RoPE(旋转位置嵌入)驱动的深度跨模态对齐。这些特性有助于在需要音视频和多感官集成的任务中实现卓越的性能,与早期基线相比,在语音理解、生成和跨模态问答等基准测试中取得了显著提升。
Uni-MoE-2.0-Omni 进一步受益于复杂的 MoE 融合策略和精炼的训练配方,使其能够在各种具有挑战性的基准测试中超越先前的迭代。其增强功能特别包括更好的长语音理解和生成、音视频任务性能的提升,以及整体上更强的多模态推理能力。通过开源这些前沿进展,Uni-MoE 促进了更广泛的多模态人工智能研究社区的创新。

