OlmOCR - 开源工具从PDF中提取纯文本
https://github.com/allenai/olmocr
https://olmocr.allenai.org/
olmOCR是一个开源工具,旨在高效地将PDF及其他文档转换为纯文本,同时保持自然的阅读顺序。
该工具支持处理表格、方程式、手写文本等多种内容。
olmOCR经过对学术论文、技术文档及其他参考资料的训练,采用独特的提示技术来提高准确性并减少错误生成。
目前的模型主要经过英语文档的微调,其他语言的支持可能不理想。
https://news.ycombinator.com/item?id=43174298
#OCR #Tool #GitHub #AI link
https://github.com/allenai/olmocr
https://olmocr.allenai.org/
olmOCR是一个开源工具,旨在高效地将PDF及其他文档转换为纯文本,同时保持自然的阅读顺序。
该工具支持处理表格、方程式、手写文本等多种内容。
olmOCR经过对学术论文、技术文档及其他参考资料的训练,采用独特的提示技术来提高准确性并减少错误生成。
目前的模型主要经过英语文档的微调,其他语言的支持可能不理想。
https://news.ycombinator.com/item?id=43174298
#OCR #Tool #GitHub #AI link