MinerU - PDF 转换 Markdown / JSON 工具

https://github.com/opendatalab/MinerU

MinerU 是一个高质量的 PDF 内容提取工具包,可将 PDF 文档转换为可读格式(如 Markdown、JSON),方便进一步处理和分析。

它专注于解决科技文献中的符号转换问题,为大模型时代的技术发展做出贡献。与知名商业产品相比,MinerU 还在不断完善和优化中。

移除页眉、页脚、脚注、页码等,确保语义连贯性
按阅读顺序输出文本,适用于单栏、多栏和复杂布局
保留原文档的结构,包括标题、段落、列表等
提取图像、图像描述、表格、表格标题和脚注
自动识别并转换文档中的公式为 LaTeX 格式
自动识别并转换文档中的表格为 HTML 格式
自动检测扫描 PDF 和乱码 PDF,并启用 OCR 功能
OCR 支持 84 种语言的检测和识别
支持多种输出格式,如多模态 Markdown、按阅读顺序排序的 JSON,以及丰富的中间格式

#PDF #Tool #GitHub GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
 
 
Back to Top
OKHK