LiveCC

该平台引入了全面的数据生产流水线，能够处理大规模视频数据集（例如 YouTube 视频及其隐藏字幕），以生成训练资源，例如用于预训练的 Live-CC-5M 数据集和用于监督微调的 Live-WhisperX-526K 数据集。 LiveCC 的架构基于 Qwen2-VL-7B-Base 模型，并通过流式预训练和微调策略进一步增强。这使得该模型在常规视频问答 (QA) 任务中表现出色，并能够提供实时、情境感知的解说。值得注意的是，LiveCC-7B-Instruct 模型已证明其解说质量能够超越更大型的模型，即使在实时场景下也是如此。

LiveCC 的功能已通过 LiveSports-3K 等基准测试（该测试衡量体育视频中实时解说的质量和相关性）以及 VideoMME 和 OVOBench 等成熟的视频问答基准测试进行了严格评估。结果表明，LiveCC 在 7B/8B 参数规模上达到了最佳性能，使其成为流式和离线视频理解的高效且可泛化的解决方案。其开放发布的模型、数据集和评估工具使研究人员和开发人员能够构建、测试和部署先进的视频语言应用程序，而不受专有系统的限制。

主要功能包括：

带有流式语音转录的实时视频评论
使用 ASR 和视频帧进行时间对齐的视觉语言建模
用于处理视频和隐藏式字幕的大规模数据管道
在视频 QA 和评论基准测试中表现出色
开源发布的模型、数据集和评估工具

Subscribe to the AI Search Newsletter