使用说明

核心用法

MinerU 是一款由 OpenDataLab 开发的开源文档提取 CLI 工具，通过 mineru-open-api 命令行实现多格式文档的智能解析与转换。

两种提取模式：

Flash-extract（极速模式）：零配置、免登录、免 Token，直接运行即可获得 Markdown 输出，支持 10MB/20页以内的文档，适合快速预览与简单提取
Extract（专业模式）：需配置 Token，支持 VLM/Pipeline 双模型选择、多格式输出（Markdown/HTML/LaTeX/DOCX/JSON）、批量处理、更大文件与更高页数限制

核心功能：

多格式输入：PDF、Word（DOC/DOCX）、PowerPoint（PPT/PPTX）、图片（PNG/JPG/WebP 等）、HTML、网页 URL
智能识别：表格识别、公式识别（LaTeX）、OCR 文字识别、多语言支持（含中文、英文、日文、韩文、阿拉伯文等 80+ 语言）
网页爬取：mineru-open-api crawl 可将任意网页转换为结构化 Markdown

典型工作流：
1. 快速尝试：mineru-open-api flash-extract paper.pdf
2. 高精度需求：注册 Token → mineru-open-api auth → mineru-open-api extract paper.pdf --model vlm -f md,docx
3. 批量处理：mineru-open-api extract *.pdf -o ./output/ --model pipeline

显著优点

开箱即用：Flash-extract 模式无需任何配置，真正零门槛
开源可信：CLI 源码完全公开（GitHub: opendatalab/MinerU-Ecosystem），可审计
双模型策略：VLM 模型针对复杂版面（多栏、图文混排）精度更高；Pipeline 模型零幻觉，适合对准确性要求极高的场景
多语言原生支持：针对 CJK、阿拉伯语系、天城文等优化，非英文文档识别效果优于多数西方工具
格式兼容广：唯一同时支持 .doc 老格式与 .ppt 原生转换的开源方案之一

潜在缺点与局限性

云端依赖：所有处理通过 MinerU API（mineru.net）服务端完成，必须联网，无法纯离线使用
Flash-extract 限制严格：10MB / 20页上限，大文档必须走 Token 模式
VLM 模型幻觉风险：虽然罕见，但复杂版面下可能产生虚构内容，关键文档建议用 Pipeline 模型复核
Token 管理成本：专业模式需注册、管理 API Token，对企业批量使用需考虑密钥分发与轮换
输出格式限制：Flash-extract 仅输出 Markdown，需富格式（DOCX 带样式）必须切到 Extract 模式

适合人群

科研人员：批量处理学术论文、提取表格与公式为 LaTeX/Markdown
开发者/数据工程师：构建文档处理 Pipeline，需要程序化、可集成的文档解析能力
知识管理用户：将本地 PDF 图书馆、Word 笔记批量转为 Markdown 导入 Obsidian/Notion
多语言文档处理者：需要准确识别中文、日文、阿拉伯文等非拉丁语系文档

常规风险

| 风险类别 | 说明 | 缓解建议 |

|---------|------|---------|

| **数据隐私** | 文档内容上传至 MinerU 服务端处理 | 避免上传含敏感个人信息、商业机密、受保密协议约束的文件；确认隐私政策符合组织合规要求 |

| **API 可用性** | 依赖 mineru.net 服务稳定性 | 关键任务建议本地备选方案；关注服务状态与速率限制 |

| **Token 泄露** | MINERU_TOKEN 环境变量或配置文件泄露 | 使用专用密钥管理服务，避免硬编码；定期轮换 Token |

| **模型幻觉** | VLM 模式极端情况下可能生成不存在的内容 | 关键数据提取后用 Pipeline 模式交叉验证；人工抽检 |

| **文件大小限制** | 超出限制导致处理失败 | 大文档提前拆分或使用专业模式 |

---

项目归属：OpenDataLab（上海人工智能实验室开源项目）
许可与源码：https://github.com/opendatalab/MinerU-Ecosystem
官方文档：https://mineru.net

pdf-extraction ocr markdown-conversion document-parsing latex academic-papers batch-processing chinese-language open-source

mineru document extractor 内容

手动下载zip · 4.7 kB

SKILL.mdtext/markdown

请选择文件