olmOCR:用于大语言模型数据集/训练的PDF线性化工具包 olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 旗下的 AllenNLP 团队开发并维护的开源工具包,旨在帮助研究人员和开发人员构建能够更好地处理 “wild” PDF 文档的大语言模型 (LLM)。 项目地址: https://github.com/allenai/olmocr 主要功能: 自然文本解析: 提供了一种 prompting 策略,可以利用 ChatGPT 4o 实现高质量的自……

阅读全文