OlmOCR - 开源工具从PDF中提取纯文本

https://github.com/allenai/olmocr

https://olmocr.allenai.org/

olmOCR是一个开源工具,旨在高效地将PDF及其他文档转换为纯文本,同时保持自然的阅读顺序。

该工具支持处理表格、方程式、手写文本等多种内容。

olmOCR经过对学术论文、技术文档及其他参考资料的训练,采用独特的提示技术来提高准确性并减少错误生成。

目前的模型主要经过英语文档的微调,其他语言的支持可能不理想。

https://news.ycombinator.com/item?id=43174298

#OCR #Tool #GitHub #AI link GitHub - allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training
 
 
Back to Top
OKHK