olmOCR:大语言模型PDF处理开源工具包
olmOCR:用于大语言模型数据集/训练的PDF线性化工具包
olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 旗下的 AllenNLP 团队开发并维护的开源工具包,旨在帮助研究人员和开发人员构建能够更好地处理 “wild” PDF 文档的大语言模型 (LLM)。
项目地址: https://github.com/allenai/olmocr
主要功能:
- 自然文本解析: 提供了一种 prompting 策略,可以利用 ChatGPT 4o 实现高质量的自然文本解析。 (通过
buildsilver.py实现) - 评估工具: 提供了一个 side-by-side eval 工具包,用于比较不同pipeline版本的效果。(通过
runeval.py实现) - 数据清洗: 具备基础的 语言过滤 和 SEO 垃圾信息移除功能。(通过
filter.py实现) - 模型微调: 提供 Qwen2-VL 和 Molmo-O 模型 的 微调代码。(通过
train.py实现) - 大规模处理: 支持使用 Sglang 处理数百万个 PDF 文档,并提供使用 finetuned 模型的示例。(通过
pipeline.py实现) - 结果查看: 提供 Dolma 文档查看器,方便浏览从 PDF 中提取的内容。(通过
dolmaviewer.py实现)
安装与使用:
……