Ai2 的新功能 – olmOCR 是“一款开源工具,旨在将 PDF 和其他文档高吞吐量转换为纯文本,同时保留自然阅读顺序”。
其核心是allenai/olmOCR-7B-0225-preview ,这是一种 Qwen2-VL-7B-Instruct 变体,在约 250,000 页不同 PDF 内容(扫描的和基于文本的)上进行训练,这些内容使用 GPT-4o 进行标记,并作为olmOCR-mix-0225 数据集提供。
olmocr Python 库可以在任何“最新的 NVIDIA GPU”上运行模型。我还没有设法在我自己的 Mac 上运行它 –那里有 GGUF ,但我不清楚如何通过它们运行视觉提示 – 但 Ai2 提供了一个在线演示,可以免费处理最多十页。
如果有合适的硬件,这看起来是运行大规模文档转换项目的一种非常便宜的方法:
我们使用 SGLang 仔细优化了大规模批处理的推理管道,使 olmOCR 能够以 190 美元的价格转换 100 万页 PDF,大约是使用 GPT-4o API 成本的 1/32。
技术报告 (PDF)中最有趣的想法是他们所谓的“文档锚定”:
文档锚定提取每个页面中显着元素的坐标(例如,文本块和图像),并将它们与从 PDF 二进制文件提取的原始文本一起注入。 […]
文档锚定通过 PyPDF 库处理 PDF 文档页面,以从底层 PDF 中提取页面结构的表示。页面中的所有文本块和图像都被提取,包括位置信息。从最相关的文本块和图像开始,对它们进行采样并添加到 VLM 的提示中,直至定义的最大字符限制。然后,模型在处理文档时可以使用这些额外信息。
通过卢卡·索尔代尼
标签: vision-llms 、 ai 、 qwen 、 llms 、微调、 pdf 、 generative-ai 、 ocr 、 ai2
原文: https://simonwillison.net/2025/Feb/26/olmocr/#atom-everything