寻找最新最佳的媒体生成人工智能。浏览最全面的AI数据库,每日持续更新。
最新
JavisGPT是一个统一的多模态大型语言模型,专为联合音视频理解和生成任务而设计。它专注于同步发声视频场景,其中视觉流和音频轨道必须以时间对齐的方式一起被理解。系统架构将专用的音视频输入编码器与语言模型核心以及一个能够生成连贯、同步媒体输出的生成器连接起来。
通过整合独立的音频和视频输入,JavisGPT可以推理跨越这两种模态的复