核心功能与用法
MinerU 是 OpenDataLab 开源的文档提取 CLI 工具,通过 mineru-open-api 命令实现多格式文档的智能解析。核心工作流分为两档:
MinerU flash-extract(快速模式):零配置、免登录、免 Token,直接运行即可将 PDF/图片/Word/PPT(≤10MB,≤20页)转换为 Markdown,支持表格识别、公式识别和 OCR,适合临时单文件处理。
MinerU extract(专业模式):需注册 Token,支持 VLM 视觉语言模型和 pipeline 模型双引擎,输出格式扩展至 HTML、LaTeX、DOCX、JSON,支持批量处理、网页爬取(crawl 子命令),文件大小和页数限制大幅放宽。
关键参数:--model vlm 擅长复杂布局但偶有幻觉风险;--model pipeline 零幻觉更可靠;--language 支持 80+ 语言包括中英日韩阿等语系包。
显著优点
1. 双模式灵活切换:快速模式 3 秒上手,专业模式满足生产级需求
2. 多格式全栈支持:原生 PDF、扫描件 OCR、Word DOC/DOCX、PPT PPT/PPTX、网页 URL 统一处理
3. 学术场景优化:公式识别、表格保留、多栏布局解析针对论文场景调优
4. 开源可信:OpenDataLab 官方维护,CLI 源码可查,API 数据不保留
5. 国际化完善:除简中外,对繁体、日文、韩文、阿拉伯文、泰文等提供专门语言包
潜在局限与风险
- VLM 模型幻觉:复杂排版下可能生成不存在的内容,关键场景建议用 pipeline 模型复核
- 免费额度限制:flash-extract 有 10MB/20 页硬限制;extract 模式受 Token 配额约束
- 网络依赖:所有处理需上传至 mineru.net 服务端,敏感文档存在传输风险
- 二进制格式输出:DOCX 等格式必须指定
-o目录,无法直接 stdout 输出 - 旧版格式支持:.doc/.ppt 仅 extract 模式支持,flash-extract 不支持
适合人群
- 学术研究者:批量下载论文、提取公式表格、构建知识库
- 数据工程师:搭建文档 ETL 管道,将非结构化文档转为结构化 Markdown
- 内容运营:网页爬取、Word 转 Markdown 发布、多语言文档本地化
- 开发者:集成 CLI 至自动化工作流,替代传统 PDF 解析库
常规风险提示
1. 隐私合规:文档内容上传至第三方服务器,含敏感信息的文件建议本地私有化部署替代方案
2. Token 管理:~/.mineru/config.yaml 明文存储 Token,共享环境需配置 MINERU_TOKEN 环境变量替代
3. 版本锁定:生产环境建议固定 CLI 版本,避免自动升级导致 API 行为变更
4. 输出校验:关键业务数据提取后应人工抽检表格行列对齐、公式符号完整性