docext - 可本地化部署的文档信息提取工具，无需 OCR

13:30 · 2025年5月15日 · 周四

docext - 可本地化部署的文档信息提取工具，无需 OCR

https://github.com/NanoNets/docext

docext 是一个无需 OCR 的本地部署文档信息提取工具，用于从文档中提取结构化信息的开源工具包。

它利用视觉语言模型(VLMs)准确地识别和提取文档图像中的字段数据和表格信息，无需进行光学字符识别(OCR)。

● 灵活的信息提取: 可定义自定义字段或使用预构建的模板
● 表格提取: 从文档中提取结构化的表格数据
● 置信度评分: 获取提取信息的置信度水平
● 本地部署: 可在自己的基础设施(Linux、MacOS)上运行
● 多页支持: 处理包含多页的文档
● REST API: 提供编程访问,便于与应用程序集成
● 预构建模板:提供发票、护照等常见文档类型的现成模板

#GitHub #Tool #Doc #HomeLab #OCR #AI