MinerU - PDF 转换 Markdown / JSON 工具
https://github.com/opendatalab/MinerU
MinerU 是一个高质量的 PDF 内容提取工具包,可将 PDF 文档转换为可读格式(如 Markdown、JSON),方便进一步处理和分析。
它专注于解决科技文献中的符号转换问题,为大模型时代的技术发展做出贡献。与知名商业产品相比,MinerU 还在不断完善和优化中。
● 移除页眉、页脚、脚注、页码等,确保语义连贯性
● 按阅读顺序输出文本,适用于单栏、多栏和复杂布局
● 保留原文档的结构,包括标题、段落、列表等
● 提取图像、图像描述、表格、表格标题和脚注
● 自动识别并转换文档中的公式为 LaTeX 格式
● 自动识别并转换文档中的表格为 HTML 格式
● 自动检测扫描 PDF 和乱码 PDF,并启用 OCR 功能
● OCR 支持 84 种语言的检测和识别
● 支持多种输出格式,如多模态 Markdown、按阅读顺序排序的 JSON,以及丰富的中间格式
#PDF #Tool #GitHub
https://github.com/opendatalab/MinerU
MinerU 是一个高质量的 PDF 内容提取工具包,可将 PDF 文档转换为可读格式(如 Markdown、JSON),方便进一步处理和分析。
它专注于解决科技文献中的符号转换问题,为大模型时代的技术发展做出贡献。与知名商业产品相比,MinerU 还在不断完善和优化中。
● 移除页眉、页脚、脚注、页码等,确保语义连贯性
● 按阅读顺序输出文本,适用于单栏、多栏和复杂布局
● 保留原文档的结构,包括标题、段落、列表等
● 提取图像、图像描述、表格、表格标题和脚注
● 自动识别并转换文档中的公式为 LaTeX 格式
● 自动识别并转换文档中的表格为 HTML 格式
● 自动检测扫描 PDF 和乱码 PDF,并启用 OCR 功能
● OCR 支持 84 种语言的检测和识别
● 支持多种输出格式,如多模态 Markdown、按阅读顺序排序的 JSON,以及丰富的中间格式
#PDF #Tool #GitHub