关键功能

端到端视觉-语言模型
完全可微,支持微调
处理表格、收据、表单和数学符号
预测嵌入图像的边界框
支持领域自适应和多语言微调
高效快速的性能
在 OlmOCR-Bench 上达到最先进的性能
文档理解的多功能工具

该模型是完全可微的,允许进行微调,并支持各种任务,如领域自适应和多语言微调。它可以处理表格、收据、表单、多栏布局和数学符号,使其成为文档理解的多功能工具。该模型还会预测嵌入图像的边界框,增强了其功能。


LightOnOCR-2-1B 是一个模型家族的一部分,该家族包括用于特定任务的变体,例如用于微调的基础模型和带有图像边界框的模型。该模型可用于 transformers,并可使用 vLLM 进行部署。它是在大型高质量语料库上训练的,从而提高了性能和效率。该模型的强大功能使其适用于广泛的应用场景。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!