该平台引入了全面的数据生产流水线,能够处理大规模视频数据集(例如 YouTube 视频及其隐藏字幕),以生成训练资源,例如用于预训练的 Live-CC-5M 数据集和用于监督微调的 Live-WhisperX-526K 数据集。 LiveCC 的架构基于 Qwen2-VL-7B-Base 模型,并通过流式预训练和微调策略进一步增强。这使得该模型在常规视频问答 (QA) 任务中表现出色,并能够提供实时、情境感知的解说。值得注意的是,LiveCC-7B-Instruct 模型已证明其解说质量能够超越更大型的模型,即使在实时场景下也是如此。
LiveCC 的功能已通过 LiveSports-3K 等基准测试(该测试衡量体育视频中实时解说的质量和相关性)以及 VideoMME 和 OVOBench 等成熟的视频问答基准测试进行了严格评估。结果表明,LiveCC 在 7B/8B 参数规模上达到了最佳性能,使其成为流式和离线视频理解的高效且可泛化的解决方案。其开放发布的模型、数据集和评估工具使研究人员和开发人员能够构建、测试和部署先进的视频语言应用程序,而不受专有系统的限制。
主要功能包括:
- 带有流式语音转录的实时视频评论
- 使用 ASR 和视频帧进行时间对齐的视觉语言建模
- 用于处理视频和隐藏式字幕的大规模数据管道
- 在视频 QA 和评论基准测试中表现出色
- 开源发布的模型、数据集和评估工具