<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>OCR | OKHK 👀</title><description>✨ Thinking...❤️ PM：https://t.me/iokhk?direct</description><link>https://okhk.pages.dev</link><item><title>Scribe OCR - 对图片 / PDF 文件进行 OCR 数字化校对</title><link>https://okhk.pages.dev/posts/7451</link><guid isPermaLink="true">https://okhk.pages.dev/posts/7451</guid><pubDate>Mon, 20 Oct 2025 10:56:02 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;Scribe &lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;&lt;u&gt; - 对图片 / PDF 文件进行 &lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;&lt;u&gt; 数字化校对&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://scribeocr.com/&quot; target=&quot;_blank&quot;&gt;https://scribeocr.com/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/scribeocr/scribeocr&quot; target=&quot;_blank&quot;&gt;https://github.com/scribeocr/scribeocr&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Scribe &lt;mark&gt;OCR&lt;/mark&gt; 是一款免费的 Web 应用，可以当作 Adobe Acrobat 等应用的简单替代品。&lt;br /&gt;&lt;br /&gt;专注于图像文本识别、高效 &lt;mark&gt;OCR&lt;/mark&gt; 数据校对及创建完全数字化的原生文本文档，能够将扫描内容转换为准确、可搜索且可编辑的数字格式，包括电子书风格的 PDF 文档。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;免费的网页端文本识别、&lt;mark&gt;OCR&lt;/mark&gt; 校对及文档数字化应用。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;完全基于浏览器客户端运行，确保数据隐私安全。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;通过优化文本叠加和定制字体生成，实现精准校对。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Image&quot;&gt;#Image&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23PDF&quot;&gt;#PDF&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://github.com/scribeocr/scribeocr&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  
  &lt;div&gt;GitHub - scribeocr/scribeocr: Web interface for recognizing text, proofreading &lt;mark&gt;OCR&lt;/mark&gt;, and creating fully-digitized documents.&lt;/div&gt;
  &lt;div&gt;Web interface for recognizing text, proofreading &lt;mark&gt;OCR&lt;/mark&gt;, and creating fully-digitized documents.  - GitHub - scribeocr/scribeocr: Web interface for recognizing text, proofreading &lt;mark&gt;OCR&lt;/mark&gt;, and creating ful...&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>surya - 开源文档 OCR 工具包</title><link>https://okhk.pages.dev/posts/7158</link><guid isPermaLink="true">https://okhk.pages.dev/posts/7158</guid><pubDate>Sun, 05 Oct 2025 09:52:02 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;surya - 开源文档 &lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;&lt;u&gt; 工具包&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/VikParuchuri/surya&quot; target=&quot;_blank&quot;&gt;https://github.com/VikParuchuri/surya&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Surya 是一个开源的文档 &lt;mark&gt;OCR&lt;/mark&gt; 工具包&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;90 多种语言的 &lt;mark&gt;OCR&lt;/mark&gt;，性能优于云服务&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;适用于各种文档，包括图像、PDF、Word 文档和 PowerPoint 演示文稿（PPT）&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;行级文本检测，版面布局分析（表格、图像、页眉、等检测）&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;阅读顺序检测&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;表格识别（检测行 / 列）&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;LaTeX &lt;mark&gt;OCR&lt;/mark&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Doc&quot;&gt;#Doc&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Image&quot;&gt;#Image&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23PDF&quot;&gt;#PDF&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://github.com/VikParuchuri/surya&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - datalab-to/surya: OCR, layout analysis, reading order, table recognition in 90+ languages&quot; src=&quot;/static/https://cdn4.telesco.pe/file/inJojPbdejugA0XmrP3eg73vU7rzi9QFAaH8xe9C9S5CokYWD1SbC4dZ3ImqBvKtJOQww5EuvTvVb0su_BT247vXK0QOCOCpQkoAhLgxr_KRwP7R_ei98XzDRWO_kQb7mRQL62rhsVVilhMz2fEl56ZIXtNEOYpVgqVcqlxs7iZAp6nvYTl1UARtwp5J-dIiUo0vh-2fXakek4S5JAkPCJydmI4W0SXhLuCjR1aPwRpg5Zmv40pOnDqN02ggx_gU2j89uXIUBO4pZDya_8MY1GSS-Y6EaIOvCNH9l4soYl5f6Cw9q7fsARnow1UsOk9T12y2ZIm1v8WBUObbDOFBFg.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;lazy&quot; /&gt;
  &lt;div&gt;GitHub - datalab-to/surya: &lt;mark&gt;OCR&lt;/mark&gt;, layout analysis, reading order, table recognition in 90+ languages&lt;/div&gt;
  &lt;div&gt;&lt;mark&gt;OCR&lt;/mark&gt;, layout analysis, reading order, table recognition in 90+ languages - datalab-to/surya&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>iOS-OCR-Server - 基于 iOS 的 OCR 服务器，使用 Apple 的 Vision Framework API</title><link>https://okhk.pages.dev/posts/6915</link><guid isPermaLink="true">https://okhk.pages.dev/posts/6915</guid><pubDate>Wed, 17 Sep 2025 07:57:01 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;iOS-&lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;&lt;u&gt;-Server - 基于 iOS 的 &lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;&lt;u&gt; 服务器，使用 Apple 的 Vision Framework API&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/riddleling/iOS-OCR-Server&quot; target=&quot;_blank&quot;&gt;https://github.com/riddleling/iOS-OCR-Server&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;将您的 iPhone 变成强大的本地 &lt;mark&gt;OCR&lt;/mark&gt; 服务器，采用 Apple 的 Vision Framework 技术。 无需云端依赖，无限制使用，完全隐私保护。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Image&quot;&gt;#Image&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://github.com/riddleling/iOS-OCR-Server&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - riddleling/iOS-OCR-Server: An iOS OCR Server Using Apple’s Vision Framework&quot; src=&quot;/static/https://cdn4.telesco.pe/file/k87WdM71nojRK0sGiy8TH2EhnYIqFol7UkCOn9B_he9Cy76AvaXKw6wThqK0LLKxEFmhv2TQGH1h8jCMykDFLC1zUo7Mhhl7BtureR-yaklLzHkJM66pNk2AHY1RK_hSwX0Dna32jcNfNUGfSJa4DTKdRcvBVUWK3PQNkq7KYGnRyAdQAlppFHgaml9use_eV_j75kY_VWN5ERvVK_n8qDGAohbFTZsXd_29FItHaTqk8EbBimY9CM-GW9pBxpAG7vqbiYKkq4RwyC74zWEMfKhUfwxKCCZhYdX4h0ZI4iUfn-k07GJ8lFHucLVLAzu5YcFFibYk0AHTv_EGSEM4iQ.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;lazy&quot; /&gt;
  &lt;div&gt;GitHub - riddleling/iOS-&lt;mark&gt;OCR&lt;/mark&gt;-Server: An iOS &lt;mark&gt;OCR&lt;/mark&gt; Server Using Apple’s Vision Framework&lt;/div&gt;
  &lt;div&gt;An iOS &lt;mark&gt;OCR&lt;/mark&gt; Server Using Apple’s Vision Framework. Contribute to riddleling/iOS-&lt;mark&gt;OCR&lt;/mark&gt;-Server development by creating an account on GitHub.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>PillOCR - 一个基于大模型 API 的 OCR 工具</title><link>https://okhk.pages.dev/posts/6684</link><guid isPermaLink="true">https://okhk.pages.dev/posts/6684</guid><pubDate>Wed, 27 Aug 2025 07:34:17 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;PillOCR - 一个基于大模型 API 的 &lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;&lt;u&gt; 工具&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/OB0NE/PillOCR&quot; target=&quot;_blank&quot;&gt;https://github.com/OB0NE/PillOCR&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;PillOCR 是一个基于大模型 API 的 &lt;mark&gt;OCR&lt;/mark&gt; 工具。&lt;br /&gt;&lt;br /&gt;它会自动监听剪贴板中的图片，将其发送给大模型进行识别，并将识别结果粘贴回剪贴板，为那些在连续写作时需要频繁进行公式识别的用户提供一种更加无感的体验。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;轻量化设计，不需要在本地进行图片识别，对电脑算力要求不高&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;价格便宜，使用大模型 API 进行识别，成本较低&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;模型可替换，不依赖于某一家提供商，可以根据需求选择合适的模型&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;未来可能会增加支持 MathML 和 Typst 的功能，以及识别 + 翻译等功能&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI&quot;&gt;#AI&lt;/a&gt;&lt;a href=&quot;https://github.com/OB0NE/PillOCR&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  
  &lt;div&gt;GitHub - OB0NE/PillOCR: 一个基于大模型api的OCR工具。&lt;/div&gt;
  &lt;div&gt;一个基于大模型api的OCR工具。. Contribute to OB0NE/PillOCR development by creating an account on GitHub.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>dots.ocr - 多语言 OCR 与文档解析模型</title><link>https://okhk.pages.dev/posts/6519</link><guid isPermaLink="true">https://okhk.pages.dev/posts/6519</guid><pubDate>Sun, 10 Aug 2025 08:11:17 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;dots.&lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;ocr&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;&lt;u&gt; - 多语言 &lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;&lt;u&gt; 与文档解析模型&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/rednote-hilab/dots.ocr&quot; target=&quot;_blank&quot;&gt;https://github.com/rednote-hilab/dots.ocr&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://huggingface.co/rednote-hilab/dots.ocr&quot; target=&quot;_blank&quot;&gt;体验地址 &lt;/a&gt;| &lt;a href=&quot;https://huggingface.co/spaces/MohamedRashad/Dots-OCR&quot; target=&quot;_blank&quot;&gt;在线演示&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;dots.&lt;mark&gt;ocr&lt;/mark&gt; 将布局检测和内容识别统一在单个视觉语言模型中，构成了一个强大的多语言文档解析器。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;强大的性能：在 OmniDocBench 基准测试中，dots.&lt;mark&gt;ocr&lt;/mark&gt; 在文本、表格和阅读顺序方面都达到了最先进的水平，而在公式识别方面的结果也与更大模型如 Doubao-1.5 和 gemini2.5-pro 相媲美。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;多语言支持：dots.&lt;mark&gt;ocr&lt;/mark&gt; 在我们自建的多语言文档基准测试中，在布局检测和内容识别方面都展现出了对低资源语言的强大解析能力。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;统一和简单的架构：通过利用单一的视觉语言模型，dots.&lt;mark&gt;ocr&lt;/mark&gt; 提供了比传统依赖复杂多模型管道的方法显著更简洁的架构。只需改变输入提示即可切换任务，证明 VLM 可以与传统检测模型如 DocLayout-YOLO 相媲美的检测结果。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;高效和快速的性能：基于紧凑的 1.7B LLM，dots.&lt;mark&gt;ocr&lt;/mark&gt; 的推理速度比许多其他高性能模型更快。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI&quot;&gt;#AI&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://github.com/rednote-hilab/dots.ocr&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - rednote-hilab/dots.ocr: Multilingual Document Layout Parsing in a Single Vision-Language Model&quot; src=&quot;/static/https://cdn4.telesco.pe/file/BgY9GV79E4JxCR4DjAoDxjL10viKul4wvnOocsoBSTJrPInqks-1HIui-3Ju3krKCAp5-LdWcVs9Qw241iOrdoA605tNOMuq101rpoQWIlFougSfaxY760DXYCwFyQoSdv_dkMAfulg4dqYD1aTeaZSyvApJS9Lhdg5owVJuGPtGLFGg4Nb_Z5cHG6ZdEd1_XuIoqxUkZQ-xU9Kwbu2VV-tE4Er6aS9QyT0yqiG4ogLUYe5U3HHPD3_ygtXD9bykhoA0Ftig1oMdbb1h4ngZ6uq0I_qcqtAJLUPAUrOTSaJdBmLZ9VeyOKxaXi-pEdZhQnoFob7DMdGbXlvd-4gAWw.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - rednote-hilab/dots.&lt;mark&gt;ocr&lt;/mark&gt;: Multilingual Document Layout Parsing in a Single Vision-Language Model&lt;/div&gt;
  &lt;div&gt;Multilingual Document Layout Parsing in a Single Vision-Language Model - rednote-hilab/dots.&lt;mark&gt;ocr&lt;/mark&gt;&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>基于 macOS 的 OCR 识别服务</title><link>https://okhk.pages.dev/posts/6319</link><guid isPermaLink="true">https://okhk.pages.dev/posts/6319</guid><pubDate>Thu, 24 Jul 2025 10:29:06 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;基于 macOS 的 &lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;&lt;u&gt; 识别服务&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/EnjoyWT/ocrl&quot; target=&quot;_blank&quot;&gt;https://github.com/EnjoyWT/ocrl&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;基于 macOS Vision Framework 的 HTTP &lt;mark&gt;OCR&lt;/mark&gt; 服务，使用 Swift Vapor 框架构建。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;原生 macOS Vision Framework &lt;mark&gt;OCR&lt;/mark&gt; 引擎&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;高性能 Vapor HTTP 服务器&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;支持多种图片格式 (JPG, PNG, TIFF, BMP)&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;多语言识别支持 (中文、英文等)&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;返回置信度和边界框信息&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;Homebrew 集成支持&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;系统服务自动管理&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23macOS&quot;&gt;#macOS&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;----------------------&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://www.v2ex.com/t/1147187&quot; target=&quot;_blank&quot;&gt;https://www.v2ex.com/t/1147187&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;macOS 系统自带 &lt;mark&gt;ocr&lt;/mark&gt; 识别库，是被效果还不错，之前看有将手机构建成 &lt;mark&gt;ocr&lt;/mark&gt; api 集群的。效果确实好。今天花费些时间 vibe code 一个本机的 &lt;mark&gt;ocr&lt;/mark&gt; 识别服务。 使用 brew services 部署。 代码已开源 支持 base64 访问 支持 表单提交 二进制数据访问 耗时较多的地方时，brew 服务的构建和测试。&lt;br /&gt;&lt;pre&gt;&lt;code&gt;http&lt;span&gt;:&lt;/span&gt;&lt;span&gt;//localhost:7321/api/v1/ocr&lt;/span&gt;
&lt;span&gt;{&lt;/span&gt;
 &lt;span&gt;&quot;image&quot;&lt;/span&gt;&lt;span&gt;:&lt;/span&gt; &lt;span&gt;&quot;data:image/png;base64,iVBORw0KGgxxx&quot;&lt;/span&gt;&lt;span&gt;,&lt;/span&gt;
 &lt;span&gt;&quot;language&quot;&lt;/span&gt;&lt;span&gt;:&lt;/span&gt; &lt;span&gt;&quot;zh-CN&quot;&lt;/span&gt;&lt;span&gt;,&lt;/span&gt;
 &lt;span&gt;&quot;confidence&quot;&lt;/span&gt;&lt;span&gt;:&lt;/span&gt; &lt;span&gt;0.9&lt;/span&gt;
&lt;span&gt;}&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;a href=&quot;https://github.com/EnjoyWT/ocrl/&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  
  &lt;div&gt;GitHub - EnjoyWT/ocrl: 一个使用 macOS 系统自带库的 &lt;mark&gt;ocr&lt;/mark&gt; 服务.&lt;/div&gt;
  &lt;div&gt;一个使用 macOS 系统自带库的 &lt;mark&gt;ocr&lt;/mark&gt; 服务. . Contribute to EnjoyWT/ocrl development by creating an account on GitHub.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>MonkeyOCR - AI 文档解析模型</title><link>https://okhk.pages.dev/posts/5873</link><guid isPermaLink="true">https://okhk.pages.dev/posts/5873</guid><pubDate>Mon, 16 Jun 2025 06:39:08 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;MonkeyOCR - AI 文档解析模型&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/Yuliang-Liu/MonkeyOCR&quot; target=&quot;_blank&quot;&gt;https://github.com/Yuliang-Liu/MonkeyOCR&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;MonkeyOCR 是一个采用结构 - 识别 - 关系 (SRR) 三元组范式的基于大型语言模型的文档解析模型。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;采用结构 - 识别 - 关系 (SRR) 三元组范式, 简化了多工具管道的复杂性&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;在中英文文档解析任务上取得了优秀的性能, 特别是在公式和表格识别方面&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;在多页文档解析方面达到了较高的处理速度&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;推理后端: 支持 LMDeploy 和 Transformers 两种推理后端&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;部署方式: 支持本地部署和 Docker 部署&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI&quot;&gt;#AI&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://github.com/Yuliang-Liu/MonkeyOCR&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - Yuliang-Liu/MonkeyOCR: A lightweight LMM-based Document Parsing Model&quot; src=&quot;/static/https://cdn4.telesco.pe/file/uCi110XQth4sQP6n0aopYfu_f8Ki-eXy7dwcm5jfJ04NNp3zt-HS6sbjiQfW4f_Ez7tFq03ytfSaUN9BMbpjX7v6m0fZzC1RNAFBVTEacjh4JmGvA1xEDSYJYYKxwOeVbZPkp4C20vQAiGAA8EWDvVTmkOhv6IuWQYkZhFwhQ_3j27zTCqIZc588YIDbuAeKB26gxvFrDHr_OTKixTd3Jdou1EtT7qy4LWKeZXBLE8IUKomlTfLbQ0ubszzJGfKHNPRykmmvnxhBHvrbU1Pxt5N1FUniMHN6fxd3N4ISuEIZLA3X9ArXWJfBE_kWEY5G9zHel-_IwlKu7CTujXtDow.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - Yuliang-Liu/MonkeyOCR: A lightweight LMM-based Document Parsing Model&lt;/div&gt;
  &lt;div&gt;A lightweight LMM-based Document Parsing Model. Contribute to Yuliang-Liu/MonkeyOCR development by creating an account on GitHub.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Snow Shot - Windows 截图工具</title><link>https://okhk.pages.dev/posts/5597</link><guid isPermaLink="true">https://okhk.pages.dev/posts/5597</guid><pubDate>Mon, 26 May 2025 07:20:22 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;Snow Shot - Windows 截图工具&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/mg-chao/snow-shot&quot; target=&quot;_blank&quot;&gt;https://github.com/mg-chao/snow-shot&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Snow Shot 是一款功能强大的截图工具，集成了文字识别、翻译和 AI 对话等功能。它采用简洁优雅的设计理念，致力于为用户带来流畅高效的使用体验。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;基础的截图功能&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;文本识别（&lt;mark&gt;OCR&lt;/mark&gt;），截图秒变可编辑文字&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;多语种翻译，效率办公好帮手&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;集成 AI Chat，边截图边对话，极其丝滑&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23Windows&quot;&gt;#Windows&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Image&quot;&gt;#Image&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://github.com/mg-chao/snow-shot&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - mg-chao/snow-shot: 超好用的截图工具&quot; src=&quot;/static/https://cdn4.telesco.pe/file/mAngWl5wETslp8tBS4RYq5CIb6qblQmE4Z63UgE8mqlC2-dwiHdvXP1awAz6ZMTfcayv8mk-dBWDA8EpCtf8JCkSTgdXay_XEHL0ggBx74xS_aPCXslAlZKqkTQ18Hib_CBdRqiDKvgvCrRGZmigkekOghvSpLIYJh8Zn43icboHTIjcd8CjXVWDMwGTtc5dGtR3s5cqFhexyV-elHdgXQ3hG3x04-CNRkMDcVi5ve1L96pZJMk_ooEQtFdaJ-DCybgGrpCUSuMI-6ZssHBbw_Cpy8gvS8fTFPYuD-RW4plgwWzKarqw7BGkdF3erPiP80P5vTVaMZ7TIIqPxqNH6A.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - mg-chao/snow-shot: 超好用的截图工具&lt;/div&gt;
  &lt;div&gt;超好用的截图工具. Contribute to mg-chao/snow-shot development by creating an account on GitHub.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>docext - 可本地化部署的文档信息提取工具，无需 OCR</title><link>https://okhk.pages.dev/posts/5454</link><guid isPermaLink="true">https://okhk.pages.dev/posts/5454</guid><pubDate>Thu, 15 May 2025 05:30:05 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;docext - 可本地化部署的文档信息提取工具，无需 &lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/NanoNets/docext&quot; target=&quot;_blank&quot;&gt;https://github.com/NanoNets/docext&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;b&gt;docext&lt;/b&gt; 是一个无需 &lt;mark&gt;OCR&lt;/mark&gt; 的本地部署文档信息提取工具，用于从文档中提取结构化信息的开源工具包。&lt;br /&gt;&lt;br /&gt;它利用视觉语言模型(VLMs)准确地识别和提取文档图像中的字段数据和表格信息，无需进行光学字符识别(&lt;mark&gt;OCR&lt;/mark&gt;)。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;灵活的信息提取: 可定义自定义字段或使用预构建的模板&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;表格提取: 从文档中提取结构化的表格数据&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;置信度评分: 获取提取信息的置信度水平&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;本地部署: 可在自己的基础设施(Linux、MacOS)上运行&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;多页支持: 处理包含多页的文档&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;REST API: 提供编程访问,便于与应用程序集成&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;预构建模板:提供发票、护照等常见文档类型的现成模板&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Doc&quot;&gt;#Doc&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23HomeLab&quot;&gt;#HomeLab&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI&quot;&gt;#AI&lt;/a&gt;</content:encoded></item><item><title>识字精灵 - Windows 离线 OCR一款识别能力强大的免费离线OCR工具，可以使用它抓取屏幕上的各种文字，且无需连网</title><link>https://okhk.pages.dev/posts/5244</link><guid isPermaLink="true">https://okhk.pages.dev/posts/5244</guid><pubDate>Mon, 05 May 2025 06:44:12 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;识字精灵 - Windows 离线 &lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;br /&gt;&lt;br /&gt;一款识别能力强大的免费离线OCR工具，可以使用它抓取屏幕上的各种文字，且无需连网。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;抓取屏幕上的不可复制文本&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;识别过程中无需联网&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;支持使用热键激活识字精灵&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;支持将结果复制为图片&lt;br /&gt;&lt;br /&gt;发布： &lt;a href=&quot;https://www.52pojie.cn/thread-2021806-1-1.html&quot; target=&quot;_blank&quot;&gt;https://www.52pojie.cn/thread-2021806-1-1.html&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;下载： &lt;a href=&quot;https://soojing.lanzoum.com/izyP32t04uij&quot; target=&quot;_blank&quot;&gt;https://soojing.lanzoum.com/izyP32t04uij&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt;  &lt;a href=&quot;/search/result?q=%23Windows&quot;&gt;#Windows&lt;/a&gt;&lt;a href=&quot;https://www.52pojie.cn/thread-2021806-1-1.html&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;www.52pojie.cn&lt;/div&gt;
  
  &lt;div&gt;识字精灵  V1.0.0.2 - 吾爱破解 - 52pojie.cn&lt;/div&gt;
  &lt;div&gt;识字精灵是一款识别能力强大的免费离线OCR工具，可以使用它抓取屏幕上的各种文字，且无需连网。重要特性 ：             抓取屏幕上的不可复制文本   识别 ...&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><link>https://okhk.pages.dev/posts/4482</link><guid isPermaLink="true">https://okhk.pages.dev/posts/4482</guid><pubDate>Sun, 30 Mar 2025 13:25:10 GMT</pubDate><content:encoded>&lt;a href=&quot;/posts/4479&quot;&gt;&lt;blockquote&gt;&lt;small&gt;
&lt;div&gt;
  &lt;span&gt;OKHK &lt;i&gt;&lt;b&gt;👀&lt;/b&gt;&lt;/i&gt;&lt;/span&gt;
&lt;/div&gt;
&lt;div&gt;微信OCR Docker版  https://www.v2ex.com/t/1120897  https://github.com/golangboy/wxocr  [ 源码目前已清空，如有需要，请查看相应 Fork 仓库]   一个基于 Docker 的 REST API 服务,用于利用微信的 OCR 引擎进行文本识别。它将 wechat-ocr 项目中的微信 OCR 功能封装成一个简单的 REST API 服务,可以轻松部署。  ● 提供基于 Flask 的 REST API 接口,支持通过 POST…&lt;/div&gt;
&lt;/small&gt;&lt;/blockquote&gt;&lt;/a&gt;&lt;a href=&quot;https://github.com/swigger/wechat-ocr&quot; target=&quot;_blank&quot;&gt;https://github.com/swigger/wechat-ocr&lt;/a&gt; &lt;br /&gt;&lt;a href=&quot;/search/result?q=%23WeChat&quot;&gt;#WeChat&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://github.com/swigger/wechat-ocr&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - swigger/wechat-ocr&quot; src=&quot;/static/https://cdn4.telesco.pe/file/gx4sqfnGmhOC1jVBE3szeYksMkVVpENp6LrJgOr9H4lqvQlwm5H1GPov35tla9fUBWuyR4K5AzLJTZjbipwpgRGuV-Cz_g9yU-OS_m3hhsvoQt-gWlSVw8W69alpPSdS0qqwOJu19mqkzNhB8RhfPLFi9CGHmDkieD-U9pUI96-FxbNaiOX4iNZyniFee5wIOWuU2hlmMNdc7O-SLPHseFemw1O4mnDVqGxMrlK3yrQWHC5hH94I3jdY-tzbV27voofQIigGiegHxyNbbagM-iidoaFzKKzWwrmQt93NeT0MrHXHud8rGj7n5og0GnB7yWiAQ3Pq6nPtLKFRFpzKRw.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - swigger/wechat-&lt;mark&gt;ocr&lt;/mark&gt;&lt;/div&gt;
  &lt;div&gt;Contribute to swigger/wechat-&lt;mark&gt;ocr&lt;/mark&gt; development by creating an account on GitHub.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><link>https://okhk.pages.dev/posts/4481</link><guid isPermaLink="true">https://okhk.pages.dev/posts/4481</guid><pubDate>Sun, 30 Mar 2025 13:06:48 GMT</pubDate><content:encoded>&lt;a href=&quot;/posts/4479&quot;&gt;&lt;blockquote&gt;&lt;small&gt;
&lt;div&gt;
  &lt;span&gt;OKHK &lt;i&gt;&lt;b&gt;👀&lt;/b&gt;&lt;/i&gt;&lt;/span&gt;
&lt;/div&gt;
&lt;div&gt;微信OCR Docker版  https://www.v2ex.com/t/1120897  https://github.com/golangboy/wxocr  [ 源码目前已清空，如有需要，请查看相应 Fork 仓库]   一个基于 Docker 的 REST API 服务,用于利用微信的 OCR 引擎进行文本识别。它将 wechat-ocr 项目中的微信 OCR 功能封装成一个简单的 REST API 服务,可以轻松部署。  ● 提供基于 Flask 的 REST API 接口,支持通过 POST…&lt;/div&gt;
&lt;/small&gt;&lt;/blockquote&gt;&lt;/a&gt;&lt;a href=&quot;https://github.com/WonderLand33/ocr-nextjs&quot; target=&quot;_blank&quot;&gt;https://github.com/WonderLand33/ocr-nextjs&lt;/a&gt;&lt;br /&gt;相应的 WebUI&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt;&lt;a href=&quot;https://github.com/WonderLand33/ocr-nextjs&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - WonderLand33/ocr-nextjs&quot; src=&quot;/static/https://cdn4.telesco.pe/file/bdLjIY2awxizezZ_1IJnKSUxMJsFzeEXOPpJMimfjR2WoXkI1xXPJ4kUetse-ofu10ZHw2fmRrA5GoGpOJywHCTifjOOcUeAC1sLpH2Wh-iBxqqVNWL9KUCIehhge8CAksuSW43ttPC-lmq5PS6Cqi6TQRzCE8txQDom-k7nOkBmbCRrtIymmW4RN77SxqMeh4CmVxqNU3DzHihRH9izEt6oQXuVMI7mvWkqlkyQ7jFU6Do9GkywUs8Kh2weLCmHGQ_j2M6aTtX3yTGiUVlEZKVvsguMfZ4jUp0L_97gq3Ew-1KEH3f6cYpXl0WpFrdurbJ1ovC0_SkCfoSbg0vvMQ.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - WonderLand33/&lt;mark&gt;ocr&lt;/mark&gt;-nextjs&lt;/div&gt;
  &lt;div&gt;Contribute to WonderLand33/&lt;mark&gt;ocr&lt;/mark&gt;-nextjs development by creating an account on GitHub.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>微信OCR Docker版</title><link>https://okhk.pages.dev/posts/4479</link><guid isPermaLink="true">https://okhk.pages.dev/posts/4479</guid><pubDate>Sun, 30 Mar 2025 10:24:08 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;微信OCR Docker版&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://www.v2ex.com/t/1120897&quot; target=&quot;_blank&quot;&gt;https://www.v2ex.com/t/1120897&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/golangboy/wxocr&quot; target=&quot;_blank&quot;&gt;https://github.com/golangboy/wxocr&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;[ 源码目前已清空，如有需要，请查看相应 Fork 仓库]&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;一个基于 Docker 的 REST API 服务,用于利用微信的 &lt;mark&gt;OCR&lt;/mark&gt; 引擎进行文本识别。它将 wechat-&lt;mark&gt;ocr&lt;/mark&gt; 项目中的微信 &lt;mark&gt;OCR&lt;/mark&gt; 功能封装成一个简单的 REST API 服务,可以轻松部署。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;提供基于 Flask 的 REST API 接口,支持通过 POST 请求上传图片进行 &lt;mark&gt;OCR&lt;/mark&gt; 识别。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;利用微信的 &lt;mark&gt;OCR&lt;/mark&gt; 引擎进行图像文本识别,返回识别结果。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;支持 PNG 格式图像的 &lt;mark&gt;OCR&lt;/mark&gt; 识别。&lt;br /&gt;&lt;br /&gt;Docker 拉取下来 直接 Post 请求即可&lt;br /&gt;[ 原镜像无法拉取则请在 Docker Hub 寻找 ]&lt;br /&gt;&lt;br /&gt;&lt;pre&gt;&lt;code&gt;docker pull golangboyme/wxocr

curl -X POST http://localhost:5000/ocr \
  -H &quot;Content-Type: application/json&quot; \
  -d &apos;{&quot;image&quot;: &quot;BASE64_ENCODED_IMAGE_DATA&quot;}&apos;&lt;/code&gt;&lt;/pre&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23WeChat&quot;&gt;#WeChat&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://www.v2ex.com/t/1120897&quot; target=&quot;_blank&quot;&gt;
  &lt;i&gt;&lt;/i&gt;
  &lt;div&gt;V2EX&lt;/div&gt;
  
  &lt;div&gt;把微信的 &lt;mark&gt;OCR&lt;/mark&gt; 功能提取出来做 Docker 服务 - V2EX&lt;/div&gt;
  &lt;div&gt;分享创造 - @bybyte - 众所周知，微信的 &lt;mark&gt;OCR&lt;/mark&gt; 识别又快又准，于是就想提出来代替某某桨的识别https://github.com/golangboy/wxocrdocker 拉取下来 直接 post 请求即&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Mistral AI OCR PDF 处理工具</title><link>https://okhk.pages.dev/posts/4127</link><guid isPermaLink="true">https://okhk.pages.dev/posts/4127</guid><pubDate>Mon, 10 Mar 2025 13:37:25 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;Mistral AI &lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;OCR&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;b&gt;&lt;u&gt; PDF 处理工具&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/nicekate/mistral-ocr&quot; target=&quot;_blank&quot;&gt;https://github.com/nicekate/mistral-ocr&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;该项目基于 Mistral AI 的 &lt;mark&gt;OCR&lt;/mark&gt; (光学字符识别) 功能实现从 PDF 文档中提取文本内容和图像，并将结果保存为 Markdown 格式&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://mistral.ai/en/news/mistral-ocr&quot; target=&quot;_blank&quot;&gt;https://mistral.ai/en/news/mistral-ocr&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;试用： &lt;a href=&quot;http://chat.mistral.ai/chat&quot; target=&quot;_blank&quot;&gt;chat.mistral.ai/chat&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;API： &lt;a href=&quot;http://console.mistral.ai/home&quot; target=&quot;_blank&quot;&gt;console.mistral.ai/home&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;与传统的 &lt;mark&gt;OCR&lt;/mark&gt; API 不同，Mistral &lt;mark&gt;OCR&lt;/mark&gt; 是一款多模态 API，它不仅可以识别文本中是否嵌入了插图或照片，还会为这些图形元素创建边界框，并将它们包含在输出中。&lt;br /&gt;&lt;br /&gt;表格+数字、数学公式、不规则PDF、带水印文本&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23AI&quot;&gt;#AI&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23URL&quot;&gt;#URL&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://github.com/nicekate/mistral-ocr&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - nicekate/mistral-ocr&quot; src=&quot;/static/https://cdn4.telesco.pe/file/fAwqgD2317hgwGBeS-FbRuHI7jcRfcjUmnY2EMFhHjrEHyem-85RA0ktWGzms7ostRgugTtWzGp5rW8zpkvQ7r3Q5S04S_80cHj1llQ5RR86pvtVBcHCKmLqubIGem7CpJr3WpxMxG2iG3ZaighfKYCQlnYhAqrYG-4H06YwOHaVOdfqQHHwoAcf3cZPoHJQXcJrqBXw96PJqmstIWx1mRNxuKNwxSyXOpAi5QWJgDB69jECD-SsNanENSuTm_dENJXdQmtY-YPMlRCBMcDReVgOvKGMcuADtm00dKBrx1YObUXQ6Nq7Lg5eawI5m5FSB1oj3EmbFHHooVIFauZH1g.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - nicekate/mistral-&lt;mark&gt;ocr&lt;/mark&gt;&lt;/div&gt;
  &lt;div&gt;Contribute to nicekate/mistral-&lt;mark&gt;ocr&lt;/mark&gt; development by creating an account on GitHub.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>OlmOCR - 开源工具从PDF中提取纯文本</title><link>https://okhk.pages.dev/posts/4106</link><guid isPermaLink="true">https://okhk.pages.dev/posts/4106</guid><pubDate>Sun, 09 Mar 2025 09:33:07 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;OlmOCR - 开源工具从PDF中提取纯文本&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/allenai/olmocr&quot; target=&quot;_blank&quot;&gt;https://github.com/allenai/olmocr&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://olmocr.allenai.org/&quot; target=&quot;_blank&quot;&gt;https://olmocr.allenai.org/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;olmOCR是一个开源工具，旨在高效地将PDF及其他文档转换为纯文本，同时保持自然的阅读顺序。&lt;br /&gt;&lt;br /&gt;该工具支持处理表格、方程式、手写文本等多种内容。&lt;br /&gt;&lt;br /&gt;olmOCR经过对学术论文、技术文档及其他参考资料的训练，采用独特的提示技术来提高准确性并减少错误生成。&lt;br /&gt;&lt;br /&gt;目前的模型主要经过英语文档的微调，其他语言的支持可能不理想。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://news.ycombinator.com/item?id=43174298&quot; target=&quot;_blank&quot;&gt;https://news.ycombinator.com/item?id=43174298&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI&quot;&gt;#AI&lt;/a&gt; &lt;a href=&quot;https://telegra.ph/UNLEwNfnMOm6p3WJun8qMw-03-01&quot; target=&quot;_blank&quot;&gt;link&lt;/a&gt;&lt;a href=&quot;https://github.com/allenai/olmocr&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training&quot; src=&quot;/static/https://cdn4.telesco.pe/file/vbqjPPwtwqmXiNsiZoqugG_kXVTN1dztLXtXpW5URfyp212nzDTNctP0NXWG0XM3MeiYd_gs4dNCBK76aUe4MvfQMHOMX4VnjkteHMhkhFleR6OBEib79wlSvVHYX95fL_vslh7Logc0Cf-UayWW1DPypnayeCJIw0REdxhdezwSZ2bIShK5BdPBqE7jz3U8T2n49e4TVzUfkKKTTIIKfjLo8ZUrSHUlaOVWriHZjRvu4adJc8IxXo0f_OmYSNyGThvald_ZtIzb7P4w14euQaPwhXseVxuz2w_O6_VcMGv_VUCNpITzBkxQk9F6R58QjFHSPnUVRo41U3DgzZ9wjQ.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training&lt;/div&gt;
  &lt;div&gt;Toolkit for linearizing PDFs for LLM datasets/training - allenai/olmocr&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>OCR4all</title><link>https://okhk.pages.dev/posts/3742</link><guid isPermaLink="true">https://okhk.pages.dev/posts/3742</guid><pubDate>Sat, 15 Feb 2025 10:07:09 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;OCR4all&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/OCR4all/OCR4all&quot; target=&quot;_blank&quot;&gt;https://github.com/OCR4all/OCR4all&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://www.ocr4all.org/&quot; target=&quot;_blank&quot;&gt;https://www.ocr4all.org&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;一个完全免费且开源的光学字符识别工具，适用于复杂手稿的高质量处理和大规模印刷文本的全文识别。它包括强大的布局和文本注释功能，并与 &lt;mark&gt;OCR&lt;/mark&gt;-D 生态系统完全兼容。用户无需编码即可通过 UI 创建复杂的 &lt;mark&gt;OCR&lt;/mark&gt; 工作流，且支持跨平台部署。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;完全免费且开源的，无需订阅或支付额外费用。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;支持从复杂手稿到大规模印刷文本的高质量处理。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;包含 LAREX 编辑器，可手动注释、校正或比较布局和文本元素。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;与 &lt;mark&gt;OCR&lt;/mark&gt;-D 生态系统完全兼容。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;用户界面设计注重易用性，无需使用代码或命令行即可创建工作流。&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;支持跨平台部署，仅需 Docker 和一条命令即可运行。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://news.ycombinator.com/item?id=43043671&quot; target=&quot;_blank&quot;&gt;https://news.ycombinator.com/item?id=43043671&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://github.com/OCR4all/OCR4all&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - OCR4all/OCR4all: Provides OCR (Optical Character Recognition) services through web applications&quot; src=&quot;/static/https://cdn4.telesco.pe/file/U7Qwc_a64uRjv5TixSoLzkzpkUYgEZSPA1R7A-LXfvr5dmRSUM1sMqVJC__pOgMjC6nDxodU42e-9wFM2ulRE8fqe5ft0jguEh5leFhLYpSJV0FuSlnV7TM2ksWwlMbtVVxb_k_bw3pPCRF9lM29NFCyGcDeSU-xa8BiCOqhrv6KBY1fpHj-EALYIgS6FsRbvSWD6ZTfE-PykVh7dXdK2m0U78rlpauXVweKdJ0TTMJ5FKgR7Fu9OOs951gGpjX2YYgpl8z2GVHkCdR5Oov6aJ4LUaHccC-Ih34UlHRUk_RExXf5NeaSidmkJCEdlCbl3DlqdD8pE6PoiE_esS9SZQ.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - OCR4all/OCR4all: Provides &lt;mark&gt;OCR&lt;/mark&gt; (Optical Character Recognition) services through web applications&lt;/div&gt;
  &lt;div&gt;Provides &lt;mark&gt;OCR&lt;/mark&gt; (Optical Character Recognition) services through web applications - OCR4all/OCR4all&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>llama-ocr</title><link>https://okhk.pages.dev/posts/2589</link><guid isPermaLink="true">https://okhk.pages.dev/posts/2589</guid><pubDate>Wed, 13 Nov 2024 09:04:07 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;llama-&lt;/u&gt;&lt;/b&gt;&lt;mark&gt;&lt;b&gt;&lt;u&gt;ocr&lt;/u&gt;&lt;/b&gt;&lt;/mark&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/Nutlope/llama-ocr&quot; target=&quot;_blank&quot;&gt;https://github.com/Nutlope/llama-ocr&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://llamaocr.com/&quot; target=&quot;_blank&quot;&gt;https://llamaocr.com/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;基于 Llama 3.2 Vision 的免费 &lt;mark&gt;OCR&lt;/mark&gt; (光学字符识别)库。它可以将图像转换为 Markdown 格式的文本。该库提供了一个简单的 API, 用户只需提供图像文件路径和 API 密钥即可使用。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;1. &lt;/b&gt;支持将图像转换为 Markdown 格式的文本&lt;br /&gt;&lt;b&gt;2. &lt;/b&gt;支持使用免费的 Llama 3.2 Vision 模型,以及付费的 Llama 3.2 11B 和 Llama 3.2 90B 模型&lt;br /&gt;&lt;b&gt;3. &lt;/b&gt;计划添加对PDF文件的支持,包括单页和多页&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23URL&quot;&gt;#URL&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23AI&quot;&gt;#AI&lt;/a&gt;&lt;a href=&quot;https://github.com/Nutlope/llama-ocr&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - Nutlope/llama-ocr: Document to Markdown OCR library with Llama 3.2 vision&quot; src=&quot;/static/https://cdn4.telesco.pe/file/YS47BR-3sq0TTC3OtbCVt7ankdCOiEPLYkGoFEOZ6babas4WsOEA-aWzS4OVqcTNdvJmDxg7b-XLaDYe-4mm7eih5qUnhy-7da9TZs2kXWRcoa_OSnX9cKRGOqkaYr9DWKUaTgjdNbNjiqli-cyjjQWzhCxeCSKWOkmmSORIVY0eiEmBDUhZJhtiBFSjq1eJfh_tQ_B6q89QyAl8rfUPeGFpQly06-rzrH9djJDUc4LGI2v_LHCdPVEWDkdTsWmnWKeT4vU5W9HGILAgk4FAchLjINtzYv4ukXU8MQnu6pDJXH6WbZvWQTp8m0rtLyOjAsGuDoPd6qDoTyhY4MZ9Og.jpg&quot; width=&quot;1200&quot; height=&quot;630&quot; loading=&quot;eager&quot; /&gt;
  &lt;div&gt;GitHub - Nutlope/llama-&lt;mark&gt;ocr&lt;/mark&gt;: Document to Markdown &lt;mark&gt;OCR&lt;/mark&gt; library with Llama 3.2 vision&lt;/div&gt;
  &lt;div&gt;Document to Markdown &lt;mark&gt;OCR&lt;/mark&gt; library with Llama 3.2 vision - Nutlope/llama-&lt;mark&gt;ocr&lt;/mark&gt;&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Zerox在线体验： </title><link>https://okhk.pages.dev/posts/2252</link><guid isPermaLink="true">https://okhk.pages.dev/posts/2252</guid><pubDate>Sat, 19 Oct 2024 07:23:02 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;Zerox&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;在线体验： &lt;a href=&quot;https://getomni.ai/ocr-demo&quot; target=&quot;_blank&quot;&gt;https://getomni.ai/ocr-demo&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;简单易用的 &lt;mark&gt;OCR&lt;/mark&gt; 工具,可以将 PDF、Word、图像等文件转换为 Markdown 格式。它使用 GPT 模型（gpt-4o-mini）对文档进行分页处理,并将每页内容转换为 Markdown 格式,最后将结果汇总返回。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/getomni-ai/zerox&quot; target=&quot;_blank&quot;&gt;https://github.com/getomni-ai/zerox&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;支持多种文件格式,包括 PDF、Word、图像等&lt;br /&gt;&lt;br /&gt;使用GPT模型进行 &lt;mark&gt;OCR&lt;/mark&gt; 处理,将文档转换为 Markdown 格式&lt;br /&gt;&lt;br /&gt;支持并发处理,提高处理效率&lt;br /&gt;&lt;br /&gt;支持保留文档格式,保证 Markdown 输出的格式一致性&lt;br /&gt;&lt;br /&gt;支持选择性处理部分页面&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23URL&quot;&gt;#URL&lt;/a&gt;&lt;a href=&quot;https://getomni.ai/ocr-demo&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;getomni.ai&lt;/div&gt;
  
  &lt;div&gt;AI Agents for Lending&lt;/div&gt;
  &lt;div&gt;Put borrower onboarding on autopilot with OmniAI. Our AI agents handle communication, document collection, and follow-ups from start to finish.&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>onnxOCR - 支持 80 多种语言的通用 OCR 模型</title><link>https://okhk.pages.dev/posts/1511</link><guid isPermaLink="true">https://okhk.pages.dev/posts/1511</guid><pubDate>Sat, 27 Jul 2024 06:24:20 GMT</pubDate><content:encoded>&lt;div&gt;
      
        &lt;img src=&quot;/static/https://cdn4.telesco.pe/file/WN2TnUkXrXV14ZwPj8QUTqaHcH9lbRjhJRcKNlRB20x9GWTW-uWdHZ-T_rdh3N5Pu60JOBYIBQ6hErezMSxfgWm-3ImW1fPJQvmlYel_ldxlsZQNYOcBaYqDV0kvIzHYrL0shIQ571qY4HPs_cXuHFJHG986nheHNZBYJlpl1RT23YW52Ezy4uIAKu_MGKsI85BbNM295eV6xkBWQ0zAA1EsIQ6ErkEeIh1e-ul16Ufi8DhWjqLuMjZNCec2s5MK3pAq_WPXNzQPLgbVk2Maz84EJw7ixAvzLg_5uWkhAQCRZAkhaVsMc--bqqXadyCCA_V4PX4ZrqQSnFvRWeyS4w.jpg&quot; alt=&quot;onnxOCR - 支持 80 多种语言的通用 OCR 模型&quot; width=&quot;800&quot; height=&quot;492&quot; loading=&quot;eager&quot; /&gt;
      
      &lt;div&gt;
        
        ×
        &lt;div&gt;
          
        &lt;/div&gt;
      &lt;/div&gt;
    &lt;/div&gt;&lt;b&gt;onnxOCR - 支持 80 多种语言的通用 &lt;/b&gt;&lt;mark&gt;&lt;b&gt;OCR&lt;/b&gt;&lt;/mark&gt;&lt;b&gt; 模型&lt;br /&gt;&lt;/b&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/jingsongliujing/OnnxOCR&quot; target=&quot;_blank&quot;&gt;https://github.com/jingsongliujing/OnnxOCR&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;一款基于 &lt;a href=&quot;https://github.com/PaddlePaddle/PaddleOCR&quot; target=&quot;_blank&quot;&gt;PaddleOCR&lt;/a&gt; 重构，并且脱离 PaddlePaddle 深度学习训练框架的轻量级 &lt;mark&gt;OCR&lt;/mark&gt; 模型，推理速度超快。&lt;br /&gt;&lt;br /&gt;在算力有限，精度不变情况下使用 paddleOCR 转成 ONNX 模型，进行重新构建的一款可部署在 arm 架构和 x86 架构计算机上的 &lt;mark&gt;OCR&lt;/mark&gt; 模型，在同样性能的计算机上推理速度加速了 4-5 倍。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt;</content:encoded></item><item><title>Pix2Text - 开源多功能图像内容识别工具</title><link>https://okhk.pages.dev/posts/1412</link><guid isPermaLink="true">https://okhk.pages.dev/posts/1412</guid><pubDate>Sun, 21 Jul 2024 03:15:16 GMT</pubDate><content:encoded>&lt;div&gt;
      
        &lt;img src=&quot;/static/https://cdn4.telesco.pe/file/AHmkf9R8n4agtBu4KjrRniu1d90Yn7prG7WAxNFCXqpi-bbN3AUlH14xCfpgC7OsPsArq5ECft5Us84qgyuwaezAPpJaVmq8hO3bx-qxYpUOatGS_Ym4J4kXOnZeb6H5PJdSsuB7qzrbZsaya8GbEb9bWdJBHuB9YsxueuNjSXczBXn2a16Uo2GpRalbu5cSj8hTMTPQ8o-q4f4ASS5M0P3kzDl2PeknD-KmO0DUcbVnFrM5hI_bh8aRAQDvY1ozj5IofqXV6maVERJyLB79zj_FsfRm2meBZD1aAkCU3lQP6HEiIdt8_HgU5QfYD_5HdTtuPqfoG_-acyqfZphhEw.jpg&quot; alt=&quot;Pix2Text - 开源多功能图像内容识别工具&quot; width=&quot;320&quot; height=&quot;316&quot; loading=&quot;eager&quot; /&gt;
      
      &lt;div&gt;
        
        ×
        &lt;div&gt;
          
        &lt;/div&gt;
      &lt;/div&gt;
    &lt;/div&gt;&lt;b&gt;Pix2Text - 开源多功能图像内容识别工具&lt;br /&gt;&lt;/b&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/breezedeus/Pix2Text&quot; target=&quot;_blank&quot;&gt;https://github.com/breezedeus/Pix2Text&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;一款开源 Python3 工具，可以识别图片中的版面、表格、图片、文字、数学公式等内容，并整合所有内容后以 Markdown 格式输出。&lt;br /&gt;&lt;br /&gt;它是 &lt;a href=&quot;https://mathpix.com/&quot; target=&quot;_blank&quot;&gt;Mathpix&lt;/a&gt; 的免费替代品，可将视觉内容无缝转换为基于文本的表述，支持 80 多种语言。&lt;br /&gt;&lt;br /&gt;P2T 也可以把一整个 PDF 文件（PDF 的内容可以是扫描图片或者其他任何格式）转换为 Markdown 格式。&lt;br /&gt;&lt;br /&gt;网页版每人每天可以免费识别 10000 个字符，正常使用应该够用了。&lt;br /&gt;&lt;br /&gt;在线体验：&lt;a href=&quot;https://huggingface.co/spaces/breezedeus/Pix2Text-Demo&quot; target=&quot;_blank&quot;&gt;https://huggingface.co/spaces/breezedeus/Pix2Text-Demo&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;网站版本：&lt;a href=&quot;https://p2t.breezedeus.com/&quot; target=&quot;_blank&quot;&gt;https://p2t.breezedeus.com/&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;b&gt;相关&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/breezedeus/Pix2Text-Mac&quot; target=&quot;_blank&quot;&gt;Pix2Text-Mac - 识别数学公式的 Mac 桌面版应用&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/breezedeus/CnOCR&quot; target=&quot;_blank&quot;&gt;CnOCR - 基于 PyTorch/MXNet 的中文/英文 &lt;mark&gt;OCR&lt;/mark&gt; Python 包&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/breezedeus/CnSTD&quot; target=&quot;_blank&quot;&gt;CnSTD - 基于 PyTorch/MXNet 的 中文/英文 场景文字、数学公式检测、篇章分析的 Python3 包&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/result?q=%23OCR&quot;&gt;#OCR&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Image&quot;&gt;#Image&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/result?q=%23GitHub&quot;&gt;#GitHub&lt;/a&gt;</content:encoded></item></channel></rss>