mineru document extractor

📄 智能文档解析,一键提取结构化数据

开源PDF文档解析工具,支持多格式转换、OCR识别与表格公式提取,提供免登录快速模式和高精度VLM专业模式

收藏
14.1k
安装
3.2k
版本
0.1.26
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心功能

MinerU 是一款由上海人工智能实验室开源的文档解析工具,专注于解决PDF、扫描件、图片等复杂文档的结构化提取难题。它支持将PDF、Word、PPT、网页等80余种格式转换为Markdown、HTML、LaTeX或DOCX,特别擅长处理学术论文中的表格、公式和多栏排版。

两种提取模式

Flash-Extract(快速模式):零配置、免登录、无Token即可使用,10MB/20页以内文件秒级转换,适合日常轻量需求。

Precision Extract(专业模式):需Token认证,支持VLM视觉语言模型进行布局分析,可批量处理、输出多格式,适合科研论文、复杂版式文档。

显著优势

  • 多模态识别:集成OCR、表格识别、公式识别(LaTeX),支持手写体与印刷体混排
  • 高保真还原:保留文档层级结构,智能识别标题、段落、列表、代码块
  • 多语言支持:覆盖中英日韩阿等80+语言,内置拉丁、阿拉伯、西里尔等语系专用包
  • 开源可信:由OpenDataLab维护,代码可审计,支持本地部署与API调用

局限性与风险

  • VLM模型可能幻觉:复杂布局下偶发文本生成错误,关键场景建议用pipeline模式
  • 文件限制:免费版10MB/20页上限,大文档需付费Token
  • 隐私考量:Token模式文件需上传云端处理,敏感文档建议本地部署MinerU社区版

适用人群

学术研究者(论文解析)、数据工程师(批量ETL)、开发者(构建文档RAG pipeline)、法律/金融从业者(合同报告结构化)

安全建议

处理机密文档时优先使用本地开源版本;核对VLM输出中的公式与数字;批量任务建议先采样验证准确性。

安全解读

核心用法

MinerU 提供两种提取模式满足不同场景:

flash-extract(快速模式):零配置、免登录、免 token,单文件 10MB/20 页内直接转换 Markdown,支持表格、公式、OCR 识别,适合临时快速处理。

extract(专业模式):需 token 认证,支持多格式输出(md/html/latex/docx/json)、VLM 智能布局分析、批量处理、更大文件,适合生产环境。

Web 抓取crawl 命令可将任意网页转为结构化 Markdown。

显著优点

  • 中文场景优化:默认针对中文 PDF 排版优化,学术论文、财报、扫描件识别效果领先
  • 双模式设计:快速模式降低使用门槛,专业模式满足企业级需求
  • 多格式覆盖:PDF、Word(含 .doc 旧版)、PPT、图片、HTML 全支持
  • 80+ 语言 OCR:中文、英文、日文、韩文、阿拉伯文、印地语等完整覆盖
  • 公式表格专项优化:学术场景下的 LaTeX 公式、复杂表格识别准确率高

潜在局限

  • flash-extract 有 10MB/20 页硬性限制,大文件必须切换专业模式
  • VLM 模型虽精度高但存在极低概率幻觉风险,pipeline 模型无幻觉但复杂布局能力稍弱
  • 专业模式需注册 token,有一定使用门槛
  • 部分旧版 Office 格式(.doc/.ppt)仅专业模式支持

适合人群

| 场景 | 推荐模式 |
|------|---------|
| 偶尔转换 PDF/图片为 Markdown | flash-extract |
| 学术研究者处理论文、公式、表格 | extract + VLM |
| 开发者构建文档处理流水线 | extract + batch |
| 数据工程师批量处理企业文档 | extract + pipeline |
| 需保留 Word/Excel 格式的场景 | extract + docx 输出 |

常规风险

1. Token 安全:需妥善保管 API token,建议使用环境变量而非命令行参数
2. 敏感文档:输出目录需设置访问权限,避免敏感内容泄露

3. 外部依赖:需通过 npm/go install 安装 CLI 工具,应从官方渠道获取

4. 网络依赖:专业模式需联网调用 MinerU 云端服务

快速开始

# 安装
npm install -g mineru-open-api

# 零登录快速试用
mineru-open-api flash-extract paper.pdf

# 专业模式(需先获取 token)
mineru-open-api auth
mineru-open-api extract paper.pdf -f md,docx -o ./output/

mineru document extractor 内容

手动下载zip · 4.4 kB
SKILL.mdtext/markdown
请选择文件