👋 个人碎碎念

资讯文档 / Bing 每日壁纸

👉 实用工具 / GitHub 项目

https://tg.okhk.net
invoicely - 发票(商业账单 / 凭证)生成平台

https://github.com/legions-developer/invoicely

https://invoicely.gg

Invoicely 是一个基于 Next.js、tRPC 和 TypeScript 构建的现代化、开源的发票生成平台。

项目提供了一个简单易用的界面,用户可以在几分钟内创建专业的发票。

基于 Next.js 的现代化 Web 应用程序
使用 tRPC 实现端到端的类型安全 API
采用 TypeScript 进行类型安全开发
集成 Drizzle ORM 进行数据库操作
支持 Cloudflare R2 进行文件存储
提供 Google OAuth 社交登录功能
使用 Zod 进行数据验证
集成 PostHog 和 OpenPanel 进行分析和监控

#GitHub #Tool #PDF #Design GitHub - legions-developer/invoicely: Invoicely is a simple and easy to use invoice generator where you can create beautiful and…
OfficeViewer - 浏览器查看 Office 文件

https://officeviewer.org/

Office Viewer 提供免费在线文档、CSV 和压缩文件查看服务。无需安装 Office 应用, 在浏览器内查看 Office 文件的服务。

支持多种常见格式,包括 Word (.docx)、Excel (.xlsx)、PowerPoint (.pptx)、PDF (.pdf)、CSV (.csv)、ZIP (.zip) 和 RAR (.rar)。
所有文件处理均在用户浏览器中进行,文件不会上传到服务器,保障用户隐私和安全,无需注册或提供个人信息。
CSV 文件支持查看、搜索、排序和高级筛选功能。
压缩文件支持浏览内容、预览文件和下载单个项目,无需完整解压。
采用 Vue.js、Nuxt.js 等现代 Web 技术构建,基于 vue office 项目。

#URL #PDF #Doc #Tool #GitHub Open Word, Excel & PPT Online - Free & Secure Office Viewer
免费 PDF 软件

https://www.pdfgear.com/

PDFgear 是一款完全免费的 PDF 软件,提供阅读、编辑、转换、合并和签署 PDF 文件功能,无需注册。

主要功能包括 PDF 文档编辑(文本、图像、签名等)、PDF 注释(高亮、评论等)、PDF 转换(批量高速转换)和 OCR 图文识别(从图像中提取文本,支持多语言)。

除了桌面软件,PDFgear 还提供数十种免费在线工具,用于快速完成 PDF 任务,例如编辑、转换、分割、合并和压缩 PDF

#URL #Tool #PDF PDFgear - Free PDF Editor Software & Online tools
免费 PDF 编辑器 - 无需安装,无需上传

https://breezepdf.com

Breeze PDF 是一个强大的免费 PDF 编辑器,可以在浏览器内离线使用,确保用户隐私,不需要上传文件。用户的文件始终保存在本地计算机上,确保数据安全。

添加文本:可以轻松在 PDF 文档的任意位置输入和添加文本。
添加图片:支持直接在 PDF 页面中插入 JPG 或 PNG 格式的图片。
添加签名:允许用户通过绘制、输入或上传的方式进行数字签名。
表单字段:可以添加互动文本输入框,制作可填写的表单。
合并 PDF:将多个 PDF 文件合并为一个文档。
删除页面:轻松移除 PDF 文件中不需要的页面。
密码保护:使用强密码加密保护敏感的 PDF 文档。

https://news.ycombinator.com/item?id=43880962

#PDF #Tool #URL #Editor
PDF Craft

https://github.com/oomol-lab/pdf-craft

PDF Craft 是一个可以将 PDF 文件转换为各种其他格式的项目。

该项目主要专注于处理扫描书籍的 PDF 文件。

1. 可以逐页读取 PDF 页面,并使用 DocLayout-YOLO 结合自编算法提取书籍页面的文本,并过滤掉页眉、页脚、脚注和页码等元素。
2. 在跨页处理过程中,算法会用于正确处理前后页之间的连接问题,最终生成语义连贯的文本。
3. 使用 OnnxOCR 进行文本识别,并使用 layoutreader 确定符合人类习惯的阅读顺序。
4. 仅使用可在本地执行的 AI 模型(使用本地图形设备加速),即可将 PDF 文件转换为 Markdown 格式。
5. 对于超过 100 页的书籍,建议转换为 EPUB 格式文件。在转换过程中,该库会将本地 OCR 识别的数据传递给 LLM,并通过特定信息(如目录等)构建书籍结构,最终生成带有目录和章节的 EPUB 文件。

#PDF #Tool #GitHub #AI GitHub - oomol-lab/pdf-craft: PDF craft can convert PDF files into various other formats. This project will focus on processing…
MarkPDFDown - PDF 转 Markdown 工具

https://github.com/MarkPDFdown/markpdfdown

MarkPDFDown 是一款强大的工具,它利用 AI 多模态大型语言模型将 PDF 文件转录为 Markdown 格式。

该工具可以准确地提取文本,保留格式,并处理包括表格、公式和图表在内的复杂文档结构。

PDF 转 Markdown 转换:将任何 PDF 文档转换为格式良好的 Markdown
图像转 Markdown 转换:将图像转换为格式良好的 Markdown
多模态理解:利用 AI 理解文档结构和内容
格式保留:保留标题、列表、表格和其他格式元素
可定制模型:可根据需求配置模型

#PDF #Tool #GitHub #AI GitHub - MarkPDFdown/markpdfdown: A high-quality PDF to Markdown tool based on large language model visual recognition. 一款基于大模…
OKHK
BabelDOC 开源 PDF 翻译工具 精准保持公式表格排版的学术翻译神器 https://github.com/funstory-ai/BabelDOC https://funstory-ai.github.io/BabelDOC/ BabelDOC 是一个 PDF 科学论文翻译和双语比较库,支持自部署和在线服务。 它提供了简单的命令行界面和 Python API,主要设计用于嵌入到其他程序中使用,但也可以直接用于简单的翻译任务。 ● 提供 PDF 文档的解析和渲染功能 ● 支持多种翻译服务…
沉浸式翻译新工具——BabelDOC

https://app.immersivetranslate.com/babel-doc/
#PDF #Tool #URL #AI

支持在翻译 PDF 的时候保持文件的原始排版,而且还能完整提取 PDF 内嵌的图表、脚注、公式等⾮⽂本元素。
MinerU - PDF 转换 Markdown / JSON 工具

https://github.com/opendatalab/MinerU

MinerU 是一个高质量的 PDF 内容提取工具包,可将 PDF 文档转换为可读格式(如 Markdown、JSON),方便进一步处理和分析。

它专注于解决科技文献中的符号转换问题,为大模型时代的技术发展做出贡献。与知名商业产品相比,MinerU 还在不断完善和优化中。

移除页眉、页脚、脚注、页码等,确保语义连贯性
按阅读顺序输出文本,适用于单栏、多栏和复杂布局
保留原文档的结构,包括标题、段落、列表等
提取图像、图像描述、表格、表格标题和脚注
自动识别并转换文档中的公式为 LaTeX 格式
自动识别并转换文档中的表格为 HTML 格式
自动检测扫描 PDF 和乱码 PDF,并启用 OCR 功能
OCR 支持 84 种语言的检测和识别
支持多种输出格式,如多模态 Markdown、按阅读顺序排序的 JSON,以及丰富的中间格式

#PDF #Tool #GitHub GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
BabelDOC 开源 PDF 翻译工具 精准保持公式表格排版的学术翻译神器

https://github.com/funstory-ai/BabelDOC

https://funstory-ai.github.io/BabelDOC/

BabelDOC 是一个 PDF 科学论文翻译和双语比较库,支持自部署和在线服务。

它提供了简单的命令行界面和 Python API,主要设计用于嵌入到其他程序中使用,但也可以直接用于简单的翻译任务。

提供 PDF 文档的解析和渲染功能
支持多种翻译服务,如 OpenAI
支持双语 PDF 输出
提供离线资产管理功能

#GitHub #PDF #Tool GitHub - funstory-ai/BabelDOC: Yet Another Document Translator
Stirling-PDF

一个强大的、本地托管的基于 Web 的 PDF 操作工具,使用 Docker 构建。

它可以执行各种 PDF 文件操作,包括拆分、合并、转换、重组、添加图像、旋转、压缩等。

这个可本地私有部署的 Web 应用程序已经发展成为一个全面的功能集,满足所有 PDF 需求。

50 多种 PDF 操作
并行文件处理和下载
暗模式支持
自定义下载选项
自定义"管道"以自动化队列运行多个功能
与外部脚本集成的 API
可选的登录和身份验证支持
数据库备份和导入
企业级功能,如单点登录

Java, Docker, PDF.js, LibreOffice, Tesseract OCR


https://github.com/Stirling-Tools/Stirling-PDF

https://www.stirlingpdf.com/

https://stirlingpdf.io/

#URL #Tool #GitHub #PDF GitHub - Stirling-Tools/Stirling-PDF: #1 Locally hosted web application that allows you to perform various operations on PDF files
章快图

一款便捷的免费在线工具,专为PDF文档的电子盖章需求设计,支持普通印章和骑缝章的快速添加。用户无需下载任何软件,即可通过网页直接上传PDF文件并完成盖章操作,满足各类文档处理需求。无论是普通印章还是复杂的骑缝章,章快图都能高效处理,帮助用户轻松实现PDF文档的电子化盖章,适用于合同、协议等文件的快速处理场景。

https://zhang.kuaitu.cc

#PDF #Tool #Image #URL
Marker - PDF 转换为 Markdown

https://github.com/VikParuchuri/marker

一个功能强大且高效的文档格式转换工具,可以将 PDF 转为 Markdown。
支持各种文档和所有语言,并针对书籍和科学论文进行了优化,

API 版本:Marker API

#PDF #GitHub #Tool
把一份英文PDF完整地翻译成中文

1、DeepL(网站) https://www.deepl.com/translator 点击页面「翻译文件」按钮,上传PDF、Word或PowerPoint文件即可

2、沉浸式翻译(浏览器插件) https://immersivetranslate.com 安装插件后,点击插件底部「更多」按钮,选择「制作双语BPUB电子书」、「翻译本地PDF文件」、「翻译THML / TXT文件」、「翻译本地字幕文件」

3、calibre(电子书管理应用) https://calibre-ebook.com/zh_CN 下载并安装 calibre ,并安装翻译插件「Ebook Translator」

4、谷歌翻译(网页) https://translate.google.com/ 使用工具把 PDF 转成Word,再点击谷歌翻译「Document」按钮,上传 Word 文档

5、百度翻译(网页)https://fanyi.baidu.com/ 点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)

6、彩云小译(App) 下载后点击「文档翻译」,可以直接导入PDF、PDF、Word、Excel、PPT、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)

7、微信读书(App) 下载App后将PDF文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮

8、浏览器自带的翻译功能 如果一些 PDF 太大,翻译工具不支持,除了将 PDF 压缩或者切分外,还可以转成 HTML 格式,然后使用浏览器自带的网页翻译功能

#RePost #PDF #URL #Tool

https://m.okjike.com/originalPosts/65825e00492ec2e1bbdc3b8e DeepL Translate: The world's most accurate translator
https://m.okjike.com/originalPosts/6573215634cced9e31e1ea2a

这个大哥对着屏幕四个小时撸了一个 chatpdf。 https://www.youtube.com/watch?v=bZFedu-0emE

----------------------

想做 chatpdf 可以关注一下,源码虽然简单,但是该有的都有了。

pdf 文件上传aws s3
有读取 pdf 文件内容
有调用 openai embedding
有把 embedding 结果上传到向量数据库 pinecone
有将对话存储 postgreSQL
有根据请求查找 context 然后润色对话

额外还有登录、支付的实现。。

登录用的是 clerk ,我简单看了一下,无脑配置就可以完成登录注册的实现,免费用户最多可以每个月 10000 活跃用户,看起来也是个不错的基础设施。
支付用的是 stripe 实现。

国外的基础设施就是齐全啊,难怪四个小时能撸一个完备的 chatpdf 。。。 我找了一段时间的 chatpdf 库,这应该是最全面的一个了。

github地址如下: https://github.com/Elliott-Chong/chatpdf-yt

#AI #GitHub #RePost #PDF
https://lookscanned.io/

一个能够让 PDF 看起来就像是扫描件一样的在线工具

Look Scanned 完全离线运行在浏览器中,上传 PDF 之后可以对其做一些自定义调整

#PDF #Tool
 
 
Back to Top
OKHK