核心用法
MinerU 是一款由 OpenDataLab 开发的开源文档提取 CLI 工具,通过 mineru-open-api 命令行实现多格式文档的智能解析与转换。
两种提取模式:
- Flash-extract(极速模式):零配置、免登录、免 Token,直接运行即可获得 Markdown 输出,支持 10MB/20页以内的文档,适合快速预览与简单提取
- Extract(专业模式):需配置 Token,支持 VLM/Pipeline 双模型选择、多格式输出(Markdown/HTML/LaTeX/DOCX/JSON)、批量处理、更大文件与更高页数限制
核心功能:
- 多格式输入:PDF、Word(DOC/DOCX)、PowerPoint(PPT/PPTX)、图片(PNG/JPG/WebP 等)、HTML、网页 URL
- 智能识别:表格识别、公式识别(LaTeX)、OCR 文字识别、多语言支持(含中文、英文、日文、韩文、阿拉伯文等 80+ 语言)
- 网页爬取:
mineru-open-api crawl可将任意网页转换为结构化 Markdown
典型工作流:
1. 快速尝试:mineru-open-api flash-extract paper.pdf
2. 高精度需求:注册 Token → mineru-open-api auth → mineru-open-api extract paper.pdf --model vlm -f md,docx
3. 批量处理:mineru-open-api extract *.pdf -o ./output/ --model pipeline
显著优点
- 开箱即用:Flash-extract 模式无需任何配置,真正零门槛
- 开源可信:CLI 源码完全公开(GitHub: opendatalab/MinerU-Ecosystem),可审计
- 双模型策略:VLM 模型针对复杂版面(多栏、图文混排)精度更高;Pipeline 模型零幻觉,适合对准确性要求极高的场景
- 多语言原生支持:针对 CJK、阿拉伯语系、天城文等优化,非英文文档识别效果优于多数西方工具
- 格式兼容广:唯一同时支持
.doc老格式与.ppt原生转换的开源方案之一
潜在缺点与局限性
- 云端依赖:所有处理通过 MinerU API(mineru.net)服务端完成,必须联网,无法纯离线使用
- Flash-extract 限制严格:10MB / 20页上限,大文档必须走 Token 模式
- VLM 模型幻觉风险:虽然罕见,但复杂版面下可能产生虚构内容,关键文档建议用 Pipeline 模型复核
- Token 管理成本:专业模式需注册、管理 API Token,对企业批量使用需考虑密钥分发与轮换
- 输出格式限制:Flash-extract 仅输出 Markdown,需富格式(DOCX 带样式)必须切到 Extract 模式
适合人群
- 科研人员:批量处理学术论文、提取表格与公式为 LaTeX/Markdown
- 开发者/数据工程师:构建文档处理 Pipeline,需要程序化、可集成的文档解析能力
- 知识管理用户:将本地 PDF 图书馆、Word 笔记批量转为 Markdown 导入 Obsidian/Notion
- 多语言文档处理者:需要准确识别中文、日文、阿拉伯文等非拉丁语系文档
常规风险
| 风险类别 | 说明 | 缓解建议 |
|---------|------|---------|
| **数据隐私** | 文档内容上传至 MinerU 服务端处理 | 避免上传含敏感个人信息、商业机密、受保密协议约束的文件;确认隐私政策符合组织合规要求 |
| **API 可用性** | 依赖 mineru.net 服务稳定性 | 关键任务建议本地备选方案;关注服务状态与速率限制 |
| **Token 泄露** | MINERU_TOKEN 环境变量或配置文件泄露 | 使用专用密钥管理服务,避免硬编码;定期轮换 Token |
| **模型幻觉** | VLM 模式极端情况下可能生成不存在的内容 | 关键数据提取后用 Pipeline 模式交叉验证;人工抽检 |
| **文件大小限制** | 超出限制导致处理失败 | 大文档提前拆分或使用专业模式 |
---
项目归属:OpenDataLab(上海人工智能实验室开源项目)
许可与源码:https://github.com/opendatalab/MinerU-Ecosystem
官方文档:https://mineru.net