mineru document extractor

📄 智能文档提取,一键转 Markdown

MinerU 是一款开源文档提取工具,支持 PDF、Word、PPT、图片等 80+ 语言文档转 Markdown/HTML/DOCX,提供免登录快速模式和高精度 VLM 模式,适合学术研究者和数据工程师批量处理文档。

收藏
10.5k
安装
3.2k
版本
0.1.28
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能与用法

MinerU 是 OpenDataLab 开源的文档提取 CLI 工具,通过 mineru-open-api 命令实现多格式文档的智能解析。核心工作流分为两档:

MinerU flash-extract(快速模式):零配置、免登录、免 Token,直接运行即可将 PDF/图片/Word/PPT(≤10MB,≤20页)转换为 Markdown,支持表格识别、公式识别和 OCR,适合临时单文件处理。

MinerU extract(专业模式):需注册 Token,支持 VLM 视觉语言模型和 pipeline 模型双引擎,输出格式扩展至 HTML、LaTeX、DOCX、JSON,支持批量处理、网页爬取(crawl 子命令),文件大小和页数限制大幅放宽。

关键参数--model vlm 擅长复杂布局但偶有幻觉风险;--model pipeline 零幻觉更可靠;--language 支持 80+ 语言包括中英日韩阿等语系包。

显著优点

1. 双模式灵活切换:快速模式 3 秒上手,专业模式满足生产级需求
2. 多格式全栈支持:原生 PDF、扫描件 OCR、Word DOC/DOCX、PPT PPT/PPTX、网页 URL 统一处理

3. 学术场景优化:公式识别、表格保留、多栏布局解析针对论文场景调优

4. 开源可信:OpenDataLab 官方维护,CLI 源码可查,API 数据不保留

5. 国际化完善:除简中外,对繁体、日文、韩文、阿拉伯文、泰文等提供专门语言包

潜在局限与风险

  • VLM 模型幻觉:复杂排版下可能生成不存在的内容,关键场景建议用 pipeline 模型复核
  • 免费额度限制:flash-extract 有 10MB/20 页硬限制;extract 模式受 Token 配额约束
  • 网络依赖:所有处理需上传至 mineru.net 服务端,敏感文档存在传输风险
  • 二进制格式输出:DOCX 等格式必须指定 -o 目录,无法直接 stdout 输出
  • 旧版格式支持:.doc/.ppt 仅 extract 模式支持,flash-extract 不支持

适合人群

  • 学术研究者:批量下载论文、提取公式表格、构建知识库
  • 数据工程师:搭建文档 ETL 管道,将非结构化文档转为结构化 Markdown
  • 内容运营:网页爬取、Word 转 Markdown 发布、多语言文档本地化
  • 开发者:集成 CLI 至自动化工作流,替代传统 PDF 解析库

常规风险提示

1. 隐私合规:文档内容上传至第三方服务器,含敏感信息的文件建议本地私有化部署替代方案
2. Token 管理~/.mineru/config.yaml 明文存储 Token,共享环境需配置 MINERU_TOKEN 环境变量替代

3. 版本锁定:生产环境建议固定 CLI 版本,避免自动升级导致 API 行为变更

4. 输出校验:关键业务数据提取后应人工抽检表格行列对齐、公式符号完整性

mineru document extractor 内容

暂无文件树

手动下载zip · 4.7 kB
contentapplication/octet-stream
请选择文件