Visual Chronicles 的架构旨在克服分析传统 MLLM 无法直接处理的大型数据集的挑战。它采用两阶段方法:首先,进行局部分析,利用 MLLM 的语义理解能力,检测特定位置图像对之间的变化。接下来是全局聚合阶段,在此阶段,检测到的变化会被聚类并汇总成更广泛的趋势。这种自下而上的方法使系统能够高效扩展,无需预定义的目标对象或大量带标签的训练数据即可提供洞察。Visual Chronicles 已展现出优于传统无监督图像分析工具的卓越性能,尤其体现在识别细微变化和与上下文相关的变化方面。
除了时间变化检测之外,Visual Chronicles 还支持灵活的查询,使用户能够搜索与特定概念相关的趋势(例如零售店的开业或关闭),或识别城市中不寻常或值得注意的特征。该系统可以将视觉发现与社会经济事件或政策决策联系起来,在基于图像的证据和现实世界的影响之间架起一座桥梁。其交互式界面允许用户探索前后图像对、可视化变化位置,并按时间窗口或语义相关性筛选结果。这使得 Visual Chronicles 不仅成为大规模图像分析领域的一项技术成就,更是一个探索性研究和决策支持的实用平台。
主要功能包括:
- 使用多模态大型语言模型进行大规模图像分析
- 用于局部变化检测和全局趋势聚合的两阶段流程
- 无需标记的训练数据即可支持开放式和概念特定的查询
- 趋势、前后图像对和变化位置的交互式可视化
- 将视觉趋势与社会经济事件和政策决策联系起来