该平台引入了全面的数据生产流水线,能够处理大规模视频数据集(例如 YouTube 视频及其隐藏字幕),以生成训练资源,例如用于预训练的 Live-CC-5M 数据集和用于监督微调的 Live-WhisperX-526K 数据集。 LiveCC 的架构基于 Qwen2-VL-7B-Base 模型,并通过流式预训练和微调策略进一步增强。这使得该模型在常规视频问答 (QA) 任务中表现出色,并能够提供实时、情境感知的解说。值得注意的是,LiveCC-7B-Instruct 模型已证明其解说质量能够超越更大型的模型,即使在实时场景下也是如此。


LiveCC 的功能已通过 LiveSports-3K 等基准测试(该测试衡量体育视频中实时解说的质量和相关性)以及 VideoMME 和 OVOBench 等成熟的视频问答基准测试进行了严格评估。结果表明,LiveCC 在 7B/8B 参数规模上达到了最佳性能,使其成为流式和离线视频理解的高效且可泛化的解决方案。其开放发布的模型、数据集和评估工具使研究人员和开发人员能够构建、测试和部署先进的视频语言应用程序,而不受专有系统的限制。


主要功能包括:


  • 带有流式语音转录的实时视频评论
  • 使用 ASR 和视频帧进行时间对齐的视觉语言建模
  • 用于处理视频和隐藏式字幕的大规模数据管道
  • 在视频 QA 和评论基准测试中表现出色
  • 开源发布的模型、数据集和评估工具

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!