mineru document extractor

📄 PDF一键转Markdown·公式表格精准识别

开源文档解析工具,支持PDF/Word/图片等80+语言转Markdown/HTML/LaTeX,提供免登录快速提取与精准识别双模式

收藏
7.8k
安装
3.2k
版本
0.1.20
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能

mineru 是 OpenDataLab 开源的文档提取工具,支持将 PDF、扫描文档、图片、Word、PowerPoint 及网页转换为结构化的 Markdown、HTML、LaTeX 或 DOCX 格式。核心亮点是双模式设计flash-extract 模式零配置、免登录、即开即用,适合快速提取简单文档;extract 模式则需要 API Token,但提供表格识别、公式识别(LaTeX)、OCR、批量处理等高级功能,支持 VLM 视觉模型实现复杂版面的高精度解析。

显著优点

  • 零门槛上手:flash-extract 无需注册、无需 Token,10MB/20页内文档直接处理
  • 多格式输出:支持 Markdown、HTML、LaTeX、DOCX、JSON 五种输出格式
  • 模型可切换vlm 模型适合学术论文等复杂排版,pipeline 模型保证零幻觉、高可靠性
  • 多语言支持:覆盖中文、英文、日文、韩文、阿拉伯语等 80+ 语言
  • 批量处理:extract 模式支持通配符或文件列表批量转换
  • 网页爬取:内置 crawl 命令可直接将网页转为 Markdown

局限性与潜在缺点

  • flash-extract 限制严格:10MB 大小上限、20 页上限、不支持表格/公式识别、仅限 Markdown 输出
  • IP 速率限制:免登录模式存在每 IP 的分钟级请求上限,高频使用易触发 429 错误
  • vlm 模型幻觉风险:虽然精度更高,但复杂场景下可能产生少量幻觉文本
  • Token 依赖:高级功能必须注册获取 API Token,对隐私敏感用户不够友好
  • 二进制格式限制:DOCX 输出不能写入 stdout,必须指定 -o 目录

适合人群

  • 学术研究者:批量解析论文、提取表格与数学公式
  • 开发者/数据工程师:构建文档处理流水线,需要稳定 API 集成
  • 内容编辑者:快速将 PDF/Word 转为 Markdown 发布
  • 初次尝试用户:flash-extract 模式适合零成本体验

常规风险

  • 数据隐私:文档上传至云端 API 处理,敏感文件建议评估后使用
  • Token 管理:API Token 存储于本地配置文件,共享环境需注意权限设置
  • 网络依赖:所有功能均需联网,离线场景无法使用
  • 超时风险:大文件或批量任务需主动调整 --timeout 参数,默认 900 秒可能不足

mineru document extractor 内容

手动下载zip · 7.6 kB
SKILL.mdtext/markdown
请选择文件