mineru document extractor

📄 智能文档提取,一键转 Markdown

MinerU 是一款开源文档提取工具,支持 PDF、Word、PPT、图片等 80+ 语言文档转 Markdown/HTML/DOCX,提供免登录快速模式和高精度 VLM 模式,适合学术研究者和数据工程师批量处理文档。

收藏
10.5k
安装
3.2k
版本
0.1.28
CLS 安全性认证2026-05-04
点击查看完整报告 >

使用说明

核心功能与用法

MinerU 是 OpenDataLab 开源的文档提取 CLI 工具,通过 mineru-open-api 命令实现多格式文档的智能解析。核心工作流分为两档:

MinerU flash-extract(快速模式):零配置、免登录、免 Token,直接运行即可将 PDF/图片/Word/PPT(≤10MB,≤20页)转换为 Markdown,支持表格识别、公式识别和 OCR,适合临时单文件处理。

MinerU extract(专业模式):需注册 Token,支持 VLM 视觉语言模型和 pipeline 模型双引擎,输出格式扩展至 HTML、LaTeX、DOCX、JSON,支持批量处理、网页爬取(crawl 子命令),文件大小和页数限制大幅放宽。

关键参数--model vlm 擅长复杂布局但偶有幻觉风险;--model pipeline 零幻觉更可靠;--language 支持 80+ 语言包括中英日韩阿等语系包。

显著优点

1. 双模式灵活切换:快速模式 3 秒上手,专业模式满足生产级需求
2. 多格式全栈支持:原生 PDF、扫描件 OCR、Word DOC/DOCX、PPT PPT/PPTX、网页 URL 统一处理

3. 学术场景优化:公式识别、表格保留、多栏布局解析针对论文场景调优

4. 开源可信:OpenDataLab 官方维护,CLI 源码可查,API 数据不保留

5. 国际化完善:除简中外,对繁体、日文、韩文、阿拉伯文、泰文等提供专门语言包

潜在局限与风险

  • VLM 模型幻觉:复杂排版下可能生成不存在的内容,关键场景建议用 pipeline 模型复核
  • 免费额度限制:flash-extract 有 10MB/20 页硬限制;extract 模式受 Token 配额约束
  • 网络依赖:所有处理需上传至 mineru.net 服务端,敏感文档存在传输风险
  • 二进制格式输出:DOCX 等格式必须指定 -o 目录,无法直接 stdout 输出
  • 旧版格式支持:.doc/.ppt 仅 extract 模式支持,flash-extract 不支持

适合人群

  • 学术研究者:批量下载论文、提取公式表格、构建知识库
  • 数据工程师:搭建文档 ETL 管道,将非结构化文档转为结构化 Markdown
  • 内容运营:网页爬取、Word 转 Markdown 发布、多语言文档本地化
  • 开发者:集成 CLI 至自动化工作流,替代传统 PDF 解析库

常规风险提示

1. 隐私合规:文档内容上传至第三方服务器,含敏感信息的文件建议本地私有化部署替代方案
2. Token 管理~/.mineru/config.yaml 明文存储 Token,共享环境需配置 MINERU_TOKEN 环境变量替代

3. 版本锁定:生产环境建议固定 CLI 版本,避免自动升级导致 API 行为变更

4. 输出校验:关键业务数据提取后应人工抽检表格行列对齐、公式符号完整性

安全解读

核心用法

MinerU Document Extractor 是 OpenDataLab 官方推出的文档提取 CLI 工具封装 Skill,支持将 PDF、扫描件、图片、Word、PPT 及网页转换为干净的 Markdown、HTML、LaTeX 或 DOCX 格式。

两种提取模式:

  • Flash-extract(免 token):零配置即用,支持表格识别、公式识别、OCR,但限制 10MB/20 页,仅输出 Markdown
  • Precision extract(需 token):支持 VLM 布局分析、多格式输出、批量处理,适合复杂文档与大文件

典型场景:PDF 转 Markdown、扫描件 OCR、学术论文表格公式提取、Word/PPT 批量转换、网页内容爬取。

显著优点

1. 官方背书,可信度高:OpenDataLab 为知名开源数据组织,MinerU 是成熟开源项目
2. 双模式灵活适配:快速模式免登录即用,专业模式支持 VLM 高精度解析

3. 多格式全能支持:覆盖 80+ 语言,支持 PDF/Word/PPT/图片/网页等主流格式

4. 学术场景优化:专门优化表格、公式、多栏布局识别,适合论文与技术文档

5. 批量处理能力:支持通配符批量提取与并发控制,适合数据工程规模化处理

潜在缺点与局限

1. 功能分层限制:高级功能(批量、多格式、VLM)需注册获取 token,增加使用门槛
2. 快速模式容量受限:10MB/20 页限制对大文档不够友好

3. VLM 模型幻觉风险:高精度模式在复杂布局下可能产生罕见幻觉文本

4. 网络依赖:所有提取需上传至 MinerU 云端 API 处理,离线场景不可用

5. 隐私敏感场景需谨慎:文档内容需传输至第三方服务器,虽声明不保留数据,但敏感文档仍需评估

适合人群

  • 科研人员:需要解析含表格、公式的学术论文与技术报告
  • 开发者/数据工程师:构建文档处理流水线,需要批量、可编程的提取方案
  • 知识管理用户:将分散的 PDF/Word 资料整理为统一的 Markdown 知识库
  • 内容创作者:快速提取网页或文档内容用于二次创作

常规风险

  • 数据外发:文档上传至 mineru.net 服务器处理,虽通过 HTTPS 加密且声明不保留数据,但敏感商业或个人隐私文档需审慎
  • API 服务依赖:服务可用性与速率限制受官方平台制约
  • Token 管理:专业模式需妥善保管个人 API token,避免泄露

mineru document extractor 内容

手动下载zip · 4.7 kB
SKILL.mdtext/markdown
请选择文件