dots.ocr - 多语言 OCR 与文档解析模型

https://github.com/rednote-hilab/dots.ocr

体验地址 | 在线演示

dots.ocr 将布局检测和内容识别统一在单个视觉语言模型中,构成了一个强大的多语言文档解析器。

强大的性能:在 OmniDocBench 基准测试中,dots.ocr 在文本、表格和阅读顺序方面都达到了最先进的水平,而在公式识别方面的结果也与更大模型如 Doubao-1.5 和 gemini2.5-pro 相媲美。
多语言支持:dots.ocr 在我们自建的多语言文档基准测试中,在布局检测和内容识别方面都展现出了对低资源语言的强大解析能力。
统一和简单的架构:通过利用单一的视觉语言模型,dots.ocr 提供了比传统依赖复杂多模型管道的方法显著更简洁的架构。只需改变输入提示即可切换任务,证明 VLM 可以与传统检测模型如 DocLayout-YOLO 相媲美的检测结果。
高效和快速的性能:基于紧凑的 1.7B LLM,dots.ocr 的推理速度比许多其他高性能模型更快。

#OCR #AI #GitHub GitHub - rednote-hilab/dots.ocr: Multilingual Document Layout Parsing in a Single Vision-Language Model
 
 
Back to Top
OKHK