Skip to main content

docext - 可本地化部署的文档信息提取工具,无需 OCR

  1. docext - 可本地化部署的文档信息提取工具,无需 OCR

    https://github.com/NanoNets/docext

    docext 是一个无需 OCR 的本地部署文档信息提取工具,用于从文档中提取结构化信息的开源工具包。

    它利用视觉语言模型(VLMs)准确地识别和提取文档图像中的字段数据和表格信息,无需进行光学字符识别(OCR)。

    灵活的信息提取: 可定义自定义字段或使用预构建的模板
    表格提取: 从文档中提取结构化的表格数据
    置信度评分: 获取提取信息的置信度水平
    本地部署: 可在自己的基础设施(Linux、MacOS)上运行
    多页支持: 处理包含多页的文档
    REST API: 提供编程访问,便于与应用程序集成
    预构建模板:提供发票、护照等常见文档类型的现成模板

    #GitHub #Tool #Doc #HomeLab #OCR #AI
OKHK