docext - 可本地化部署的文档信息提取工具,无需 OCR

https://github.com/NanoNets/docext

docext 是一个无需 OCR 的本地部署文档信息提取工具,用于从文档中提取结构化信息的开源工具包。

它利用视觉语言模型(VLMs)准确地识别和提取文档图像中的字段数据和表格信息,无需进行光学字符识别(OCR)。

灵活的信息提取: 可定义自定义字段或使用预构建的模板
表格提取: 从文档中提取结构化的表格数据
置信度评分: 获取提取信息的置信度水平
本地部署: 可在自己的基础设施(Linux、MacOS)上运行
多页支持: 处理包含多页的文档
REST API: 提供编程访问,便于与应用程序集成
预构建模板:提供发票、护照等常见文档类型的现成模板

#GitHub #Tool #Doc #HomeLab #OCR #AI
 
 
Back to Top
OKHK