✨ 碎片收藏 / 资讯文档 / 网站工具 / GitHub 项目 / Bing 壁纸
Scribe OCR - 对图片 / PDF 文件进行 OCR 数字化校对
https://scribeocr.com/
https://github.com/scribeocr/scribeocr
Scribe OCR 是一款免费的 Web 应用,可以当作 Adobe Acrobat 等应用的简单替代品。
专注于图像文本识别、高效 OCR 数据校对及创建完全数字化的原生文本文档,能够将扫描内容转换为准确、可搜索且可编辑的数字格式,包括电子书风格的 PDF 文档。
● 免费的网页端文本识别、OCR 校对及文档数字化应用。
● 完全基于浏览器客户端运行,确保数据隐私安全。
● 通过优化文本叠加和定制字体生成,实现精准校对。
#OCR #Image #PDF #Tool #GitHub
https://scribeocr.com/
https://github.com/scribeocr/scribeocr
Scribe OCR 是一款免费的 Web 应用,可以当作 Adobe Acrobat 等应用的简单替代品。
专注于图像文本识别、高效 OCR 数据校对及创建完全数字化的原生文本文档,能够将扫描内容转换为准确、可搜索且可编辑的数字格式,包括电子书风格的 PDF 文档。
● 免费的网页端文本识别、OCR 校对及文档数字化应用。
● 完全基于浏览器客户端运行,确保数据隐私安全。
● 通过优化文本叠加和定制字体生成,实现精准校对。
#OCR #Image #PDF #Tool #GitHub
iOS-OCR-Server - 基于 iOS 的 OCR 服务器,使用 Apple 的 Vision Framework API
https://github.com/riddleling/iOS-OCR-Server
将您的 iPhone 变成强大的本地 OCR 服务器,采用 Apple 的 Vision Framework 技术。 无需云端依赖,无限制使用,完全隐私保护。
#OCR #Image #Tool #GitHub
https://github.com/riddleling/iOS-OCR-Server
将您的 iPhone 变成强大的本地 OCR 服务器,采用 Apple 的 Vision Framework 技术。 无需云端依赖,无限制使用,完全隐私保护。
#OCR #Image #Tool #GitHub
PillOCR - 一个基于大模型 API 的 OCR 工具
https://github.com/OB0NE/PillOCR
PillOCR 是一个基于大模型 API 的 OCR 工具。
它会自动监听剪贴板中的图片,将其发送给大模型进行识别,并将识别结果粘贴回剪贴板,为那些在连续写作时需要频繁进行公式识别的用户提供一种更加无感的体验。
● 轻量化设计,不需要在本地进行图片识别,对电脑算力要求不高
● 价格便宜,使用大模型 API 进行识别,成本较低
● 模型可替换,不依赖于某一家提供商,可以根据需求选择合适的模型
● 未来可能会增加支持 MathML 和 Typst 的功能,以及识别 + 翻译等功能
#OCR #Tool #GitHub #AI
https://github.com/OB0NE/PillOCR
PillOCR 是一个基于大模型 API 的 OCR 工具。
它会自动监听剪贴板中的图片,将其发送给大模型进行识别,并将识别结果粘贴回剪贴板,为那些在连续写作时需要频繁进行公式识别的用户提供一种更加无感的体验。
● 轻量化设计,不需要在本地进行图片识别,对电脑算力要求不高
● 价格便宜,使用大模型 API 进行识别,成本较低
● 模型可替换,不依赖于某一家提供商,可以根据需求选择合适的模型
● 未来可能会增加支持 MathML 和 Typst 的功能,以及识别 + 翻译等功能
#OCR #Tool #GitHub #AI
dots.ocr - 多语言 OCR 与文档解析模型
https://github.com/rednote-hilab/dots.ocr
体验地址 | 在线演示
dots.ocr 将布局检测和内容识别统一在单个视觉语言模型中,构成了一个强大的多语言文档解析器。
● 强大的性能:在 OmniDocBench 基准测试中,dots.ocr 在文本、表格和阅读顺序方面都达到了最先进的水平,而在公式识别方面的结果也与更大模型如 Doubao-1.5 和 gemini2.5-pro 相媲美。
● 多语言支持:dots.ocr 在我们自建的多语言文档基准测试中,在布局检测和内容识别方面都展现出了对低资源语言的强大解析能力。
● 统一和简单的架构:通过利用单一的视觉语言模型,dots.ocr 提供了比传统依赖复杂多模型管道的方法显著更简洁的架构。只需改变输入提示即可切换任务,证明 VLM 可以与传统检测模型如 DocLayout-YOLO 相媲美的检测结果。
● 高效和快速的性能:基于紧凑的 1.7B LLM,dots.ocr 的推理速度比许多其他高性能模型更快。
#OCR #AI #GitHub
https://github.com/rednote-hilab/dots.ocr
体验地址 | 在线演示
dots.ocr 将布局检测和内容识别统一在单个视觉语言模型中,构成了一个强大的多语言文档解析器。
● 强大的性能:在 OmniDocBench 基准测试中,dots.ocr 在文本、表格和阅读顺序方面都达到了最先进的水平,而在公式识别方面的结果也与更大模型如 Doubao-1.5 和 gemini2.5-pro 相媲美。
● 多语言支持:dots.ocr 在我们自建的多语言文档基准测试中,在布局检测和内容识别方面都展现出了对低资源语言的强大解析能力。
● 统一和简单的架构:通过利用单一的视觉语言模型,dots.ocr 提供了比传统依赖复杂多模型管道的方法显著更简洁的架构。只需改变输入提示即可切换任务,证明 VLM 可以与传统检测模型如 DocLayout-YOLO 相媲美的检测结果。
● 高效和快速的性能:基于紧凑的 1.7B LLM,dots.ocr 的推理速度比许多其他高性能模型更快。
#OCR #AI #GitHub
基于 macOS 的 OCR 识别服务
https://github.com/EnjoyWT/ocrl
基于 macOS Vision Framework 的 HTTP OCR 服务,使用 Swift Vapor 框架构建。
● 原生 macOS Vision Framework OCR 引擎
● 高性能 Vapor HTTP 服务器
● 支持多种图片格式 (JPG, PNG, TIFF, BMP)
● 多语言识别支持 (中文、英文等)
● 返回置信度和边界框信息
● Homebrew 集成支持
● 系统服务自动管理
#macOS #OCR #Tool #GitHub
----------------------
https://www.v2ex.com/t/1147187
macOS 系统自带 ocr 识别库,是被效果还不错,之前看有将手机构建成 ocr api 集群的。效果确实好。今天花费些时间 vibe code 一个本机的 ocr 识别服务。 使用 brew services 部署。 代码已开源 支持 base64 访问 支持 表单提交 二进制数据访问 耗时较多的地方时,brew 服务的构建和测试。
https://github.com/EnjoyWT/ocrl
基于 macOS Vision Framework 的 HTTP OCR 服务,使用 Swift Vapor 框架构建。
● 原生 macOS Vision Framework OCR 引擎
● 高性能 Vapor HTTP 服务器
● 支持多种图片格式 (JPG, PNG, TIFF, BMP)
● 多语言识别支持 (中文、英文等)
● 返回置信度和边界框信息
● Homebrew 集成支持
● 系统服务自动管理
#macOS #OCR #Tool #GitHub
----------------------
https://www.v2ex.com/t/1147187
macOS 系统自带 ocr 识别库,是被效果还不错,之前看有将手机构建成 ocr api 集群的。效果确实好。今天花费些时间 vibe code 一个本机的 ocr 识别服务。 使用 brew services 部署。 代码已开源 支持 base64 访问 支持 表单提交 二进制数据访问 耗时较多的地方时,brew 服务的构建和测试。
http://localhost:7321/api/v1/ocr
{
"image": "",
"language": "zh-CN",
"confidence": 0.9
}MonkeyOCR - AI 文档解析模型
https://github.com/Yuliang-Liu/MonkeyOCR
MonkeyOCR 是一个采用结构 - 识别 - 关系 (SRR) 三元组范式的基于大型语言模型的文档解析模型。
● 采用结构 - 识别 - 关系 (SRR) 三元组范式, 简化了多工具管道的复杂性
● 在中英文文档解析任务上取得了优秀的性能, 特别是在公式和表格识别方面
● 在多页文档解析方面达到了较高的处理速度
● 推理后端: 支持 LMDeploy 和 Transformers 两种推理后端
● 部署方式: 支持本地部署和 Docker 部署
#AI #OCR #GitHub
https://github.com/Yuliang-Liu/MonkeyOCR
MonkeyOCR 是一个采用结构 - 识别 - 关系 (SRR) 三元组范式的基于大型语言模型的文档解析模型。
● 采用结构 - 识别 - 关系 (SRR) 三元组范式, 简化了多工具管道的复杂性
● 在中英文文档解析任务上取得了优秀的性能, 特别是在公式和表格识别方面
● 在多页文档解析方面达到了较高的处理速度
● 推理后端: 支持 LMDeploy 和 Transformers 两种推理后端
● 部署方式: 支持本地部署和 Docker 部署
#AI #OCR #GitHub
docext - 可本地化部署的文档信息提取工具,无需 OCR
https://github.com/NanoNets/docext
docext 是一个无需 OCR 的本地部署文档信息提取工具,用于从文档中提取结构化信息的开源工具包。
它利用视觉语言模型(VLMs)准确地识别和提取文档图像中的字段数据和表格信息,无需进行光学字符识别(OCR)。
● 灵活的信息提取: 可定义自定义字段或使用预构建的模板
● 表格提取: 从文档中提取结构化的表格数据
● 置信度评分: 获取提取信息的置信度水平
● 本地部署: 可在自己的基础设施(Linux、MacOS)上运行
● 多页支持: 处理包含多页的文档
● REST API: 提供编程访问,便于与应用程序集成
● 预构建模板:提供发票、护照等常见文档类型的现成模板
#GitHub #Tool #Doc #HomeLab #OCR #AI
https://github.com/NanoNets/docext
docext 是一个无需 OCR 的本地部署文档信息提取工具,用于从文档中提取结构化信息的开源工具包。
它利用视觉语言模型(VLMs)准确地识别和提取文档图像中的字段数据和表格信息,无需进行光学字符识别(OCR)。
● 灵活的信息提取: 可定义自定义字段或使用预构建的模板
● 表格提取: 从文档中提取结构化的表格数据
● 置信度评分: 获取提取信息的置信度水平
● 本地部署: 可在自己的基础设施(Linux、MacOS)上运行
● 多页支持: 处理包含多页的文档
● REST API: 提供编程访问,便于与应用程序集成
● 预构建模板:提供发票、护照等常见文档类型的现成模板
#GitHub #Tool #Doc #HomeLab #OCR #AI
识字精灵 - Windows 离线 OCR
一款识别能力强大的免费离线OCR工具,可以使用它抓取屏幕上的各种文字,且无需连网。
● 抓取屏幕上的不可复制文本
● 识别过程中无需联网
● 支持使用热键激活识字精灵
● 支持将结果复制为图片
发布: https://www.52pojie.cn/thread-2021806-1-1.html
下载: https://soojing.lanzoum.com/izyP32t04uij
#OCR #Tool #Windows
一款识别能力强大的免费离线OCR工具,可以使用它抓取屏幕上的各种文字,且无需连网。
● 抓取屏幕上的不可复制文本
● 识别过程中无需联网
● 支持使用热键激活识字精灵
● 支持将结果复制为图片
发布: https://www.52pojie.cn/thread-2021806-1-1.html
下载: https://soojing.lanzoum.com/izyP32t04uij
#OCR #Tool #Windows
微信OCR Docker版
https://www.v2ex.com/t/1120897
https://github.com/golangboy/wxocr
[ 源码目前已清空,如有需要,请查看相应 Fork 仓库]
一个基于 Docker 的 REST API 服务,用于利用微信的 OCR 引擎进行文本识别。它将 wechat-ocr 项目中的微信 OCR 功能封装成一个简单的 REST API 服务,可以轻松部署。
● 提供基于 Flask 的 REST API 接口,支持通过 POST 请求上传图片进行 OCR 识别。
● 利用微信的 OCR 引擎进行图像文本识别,返回识别结果。
● 支持 PNG 格式图像的 OCR 识别。
Docker 拉取下来 直接 Post 请求即可
[ 原镜像无法拉取则请在 Docker Hub 寻找 ]
#WeChat #OCR #Tool #GitHub
https://www.v2ex.com/t/1120897
https://github.com/golangboy/wxocr
[ 源码目前已清空,如有需要,请查看相应 Fork 仓库]
一个基于 Docker 的 REST API 服务,用于利用微信的 OCR 引擎进行文本识别。它将 wechat-ocr 项目中的微信 OCR 功能封装成一个简单的 REST API 服务,可以轻松部署。
● 提供基于 Flask 的 REST API 接口,支持通过 POST 请求上传图片进行 OCR 识别。
● 利用微信的 OCR 引擎进行图像文本识别,返回识别结果。
● 支持 PNG 格式图像的 OCR 识别。
Docker 拉取下来 直接 Post 请求即可
[ 原镜像无法拉取则请在 Docker Hub 寻找 ]
docker pull golangboyme/wxocr
curl -X POST http://localhost:5000/ocr \
-H "Content-Type: application/json" \
-d '{"image": "BASE64_ENCODED_IMAGE_DATA"}'#WeChat #OCR #Tool #GitHub
Mistral AI OCR PDF 处理工具
https://github.com/nicekate/mistral-ocr
该项目基于 Mistral AI 的 OCR (光学字符识别) 功能实现从 PDF 文档中提取文本内容和图像,并将结果保存为 Markdown 格式
https://mistral.ai/en/news/mistral-ocr
试用: chat.mistral.ai/chat
API: console.mistral.ai/home
与传统的 OCR API 不同,Mistral OCR 是一款多模态 API,它不仅可以识别文本中是否嵌入了插图或照片,还会为这些图形元素创建边界框,并将它们包含在输出中。
表格+数字、数学公式、不规则PDF、带水印文本
#AI #OCR #Tool #URL #GitHub
https://github.com/nicekate/mistral-ocr
该项目基于 Mistral AI 的 OCR (光学字符识别) 功能实现从 PDF 文档中提取文本内容和图像,并将结果保存为 Markdown 格式
https://mistral.ai/en/news/mistral-ocr
试用: chat.mistral.ai/chat
API: console.mistral.ai/home
与传统的 OCR API 不同,Mistral OCR 是一款多模态 API,它不仅可以识别文本中是否嵌入了插图或照片,还会为这些图形元素创建边界框,并将它们包含在输出中。
表格+数字、数学公式、不规则PDF、带水印文本
#AI #OCR #Tool #URL #GitHub
OlmOCR - 开源工具从PDF中提取纯文本
https://github.com/allenai/olmocr
https://olmocr.allenai.org/
olmOCR是一个开源工具,旨在高效地将PDF及其他文档转换为纯文本,同时保持自然的阅读顺序。
该工具支持处理表格、方程式、手写文本等多种内容。
olmOCR经过对学术论文、技术文档及其他参考资料的训练,采用独特的提示技术来提高准确性并减少错误生成。
目前的模型主要经过英语文档的微调,其他语言的支持可能不理想。
https://news.ycombinator.com/item?id=43174298
#OCR #Tool #GitHub #AI link
https://github.com/allenai/olmocr
https://olmocr.allenai.org/
olmOCR是一个开源工具,旨在高效地将PDF及其他文档转换为纯文本,同时保持自然的阅读顺序。
该工具支持处理表格、方程式、手写文本等多种内容。
olmOCR经过对学术论文、技术文档及其他参考资料的训练,采用独特的提示技术来提高准确性并减少错误生成。
目前的模型主要经过英语文档的微调,其他语言的支持可能不理想。
https://news.ycombinator.com/item?id=43174298
#OCR #Tool #GitHub #AI link
OCR4all
https://github.com/OCR4all/OCR4all
https://www.ocr4all.org
一个完全免费且开源的光学字符识别工具,适用于复杂手稿的高质量处理和大规模印刷文本的全文识别。它包括强大的布局和文本注释功能,并与 OCR-D 生态系统完全兼容。用户无需编码即可通过 UI 创建复杂的 OCR 工作流,且支持跨平台部署。
● 完全免费且开源的,无需订阅或支付额外费用。
● 支持从复杂手稿到大规模印刷文本的高质量处理。
● 包含 LAREX 编辑器,可手动注释、校正或比较布局和文本元素。
● 与 OCR-D 生态系统完全兼容。
● 用户界面设计注重易用性,无需使用代码或命令行即可创建工作流。
● 支持跨平台部署,仅需 Docker 和一条命令即可运行。
https://news.ycombinator.com/item?id=43043671
#OCR #Tool #GitHub
https://github.com/OCR4all/OCR4all
https://www.ocr4all.org
一个完全免费且开源的光学字符识别工具,适用于复杂手稿的高质量处理和大规模印刷文本的全文识别。它包括强大的布局和文本注释功能,并与 OCR-D 生态系统完全兼容。用户无需编码即可通过 UI 创建复杂的 OCR 工作流,且支持跨平台部署。
● 完全免费且开源的,无需订阅或支付额外费用。
● 支持从复杂手稿到大规模印刷文本的高质量处理。
● 包含 LAREX 编辑器,可手动注释、校正或比较布局和文本元素。
● 与 OCR-D 生态系统完全兼容。
● 用户界面设计注重易用性,无需使用代码或命令行即可创建工作流。
● 支持跨平台部署,仅需 Docker 和一条命令即可运行。
https://news.ycombinator.com/item?id=43043671
#OCR #Tool #GitHub
llama-ocr
https://github.com/Nutlope/llama-ocr
https://llamaocr.com/
基于 Llama 3.2 Vision 的免费 OCR (光学字符识别)库。它可以将图像转换为 Markdown 格式的文本。该库提供了一个简单的 API, 用户只需提供图像文件路径和 API 密钥即可使用。
1. 支持将图像转换为 Markdown 格式的文本
2. 支持使用免费的 Llama 3.2 Vision 模型,以及付费的 Llama 3.2 11B 和 Llama 3.2 90B 模型
3. 计划添加对PDF文件的支持,包括单页和多页
#OCR #Tool #GitHub #URL #AI
https://github.com/Nutlope/llama-ocr
https://llamaocr.com/
基于 Llama 3.2 Vision 的免费 OCR (光学字符识别)库。它可以将图像转换为 Markdown 格式的文本。该库提供了一个简单的 API, 用户只需提供图像文件路径和 API 密钥即可使用。
1. 支持将图像转换为 Markdown 格式的文本
2. 支持使用免费的 Llama 3.2 Vision 模型,以及付费的 Llama 3.2 11B 和 Llama 3.2 90B 模型
3. 计划添加对PDF文件的支持,包括单页和多页
#OCR #Tool #GitHub #URL #AI
Zerox
在线体验: https://getomni.ai/ocr-demo
简单易用的 OCR 工具,可以将 PDF、Word、图像等文件转换为 Markdown 格式。它使用 GPT 模型(gpt-4o-mini)对文档进行分页处理,并将每页内容转换为 Markdown 格式,最后将结果汇总返回。
https://github.com/getomni-ai/zerox
支持多种文件格式,包括 PDF、Word、图像等
使用GPT模型进行 OCR 处理,将文档转换为 Markdown 格式
支持并发处理,提高处理效率
支持保留文档格式,保证 Markdown 输出的格式一致性
支持选择性处理部分页面
#GitHub #Tool #OCR #URL
在线体验: https://getomni.ai/ocr-demo
简单易用的 OCR 工具,可以将 PDF、Word、图像等文件转换为 Markdown 格式。它使用 GPT 模型(gpt-4o-mini)对文档进行分页处理,并将每页内容转换为 Markdown 格式,最后将结果汇总返回。
https://github.com/getomni-ai/zerox
支持多种文件格式,包括 PDF、Word、图像等
使用GPT模型进行 OCR 处理,将文档转换为 Markdown 格式
支持并发处理,提高处理效率
支持保留文档格式,保证 Markdown 输出的格式一致性
支持选择性处理部分页面
#GitHub #Tool #OCR #URL
https://github.com/jingsongliujing/OnnxOCR
一款基于 PaddleOCR 重构,并且脱离 PaddlePaddle 深度学习训练框架的轻量级 OCR 模型,推理速度超快。
在算力有限,精度不变情况下使用 paddleOCR 转成 ONNX 模型,进行重新构建的一款可部署在 arm 架构和 x86 架构计算机上的 OCR 模型,在同样性能的计算机上推理速度加速了 4-5 倍。
#GitHub #Tool #OCR
https://github.com/breezedeus/Pix2Text
一款开源 Python3 工具,可以识别图片中的版面、表格、图片、文字、数学公式等内容,并整合所有内容后以 Markdown 格式输出。
它是 Mathpix 的免费替代品,可将视觉内容无缝转换为基于文本的表述,支持 80 多种语言。
P2T 也可以把一整个 PDF 文件(PDF 的内容可以是扫描图片或者其他任何格式)转换为 Markdown 格式。
网页版每人每天可以免费识别 10000 个字符,正常使用应该够用了。
在线体验:https://huggingface.co/spaces/breezedeus/Pix2Text-Demo
网站版本:https://p2t.breezedeus.com/
相关
Pix2Text-Mac - 识别数学公式的 Mac 桌面版应用
CnOCR - 基于 PyTorch/MXNet 的中文/英文 OCR Python 包
CnSTD - 基于 PyTorch/MXNet 的 中文/英文 场景文字、数学公式检测、篇章分析的 Python3 包
#OCR #Image #Tool #GitHub