mineru document extractor

📄 智能文档提取,一键转 Markdown

MinerU 是高性能文档提取工具,支持 PDF/Word/PPT/图片转 Markdown/HTML/DOCX,具备表格识别、公式识别、OCR 能力,提供免登录快速模式和高精度 VLM 专业模式。

收藏
10.7k
安装
3.3k
版本
0.1.29
CLS 安全性认证2026-05-10
点击查看完整报告 >

使用说明

MinerU 文档提取工具综合评估

MinerU 是由 OpenDataLab 开发的开源文档提取解决方案,通过 mineru-open-api CLI 工具提供端到端的文档解析能力。该工具支持 80+ 语言,可将 PDF、Word、PowerPoint、图片及网页转换为结构化输出格式,是学术研究者、数据工程师和开发者的实用工具。

核心用法

MinerU 提供两种提取模式:

Flash-Extract(快速模式):零配置、免登录、无 Token 即可使用,适合即时需求。支持 10 MB 以内、20 页以下的文件,输出 Markdown 格式,集成表格识别、公式识别和 OCR 能力。

Precision Extract(专业模式):需 Token 认证,支持 VLM 视觉语言模型或 Pipeline 模型,可输出 Markdown、HTML、LaTeX、DOCX、JSON 等多种格式,支持批量处理大文件,适合生产环境。

附加功能包括网页爬取(crawl)、多语言指定、页码范围筛选等。

显著优点

  • 双模式灵活切换:快速模式开箱即用,专业模式深度可控
  • 多格式支持:覆盖 PDF、DOC/DOCX、PPT/PPTX、图片、HTML 及 URL
  • 高精度识别:VLM 模型针对复杂版面优化,Pipeline 模型零幻觉风险
  • 批量处理能力:支持通配符批量提取和并发控制
  • 学术友好:专为论文、研报中的表格和数学公式优化
  • 80+ 语言支持:包括中文、英文、日文、韩文、阿拉伯语及多语系包

潜在局限

  • Flash-Extract 限制:单文件 10 MB / 20 页上限,超限时需升级专业模式
  • Token 依赖:高级功能需注册获取 API Token,增加使用门槛
  • VLM 幻觉风险:视觉模型虽精度高,但极少数场景可能产生虚构内容
  • 网络依赖:所有处理通过 mineru.net API 服务端完成,需稳定网络
  • 隐私考量:文档内容需上传至第三方服务器处理

适合人群

  • 学术研究者:批量解析论文、提取表格数据和数学公式
  • 数据工程师:构建文档处理流水线,实现格式标准化
  • 开发者:集成文档转换功能到自有应用或自动化工作流
  • 内容运营:快速将 PDF 研报、PPT 转换为可编辑 Markdown

常规风险

  • 数据外传:文档内容传输至 MinerU 服务器,敏感文件需谨慎评估
  • API 可用性:依赖外部服务稳定性,存在服务中断或限流风险
  • 输出质量波动:扫描件质量、版面复杂度可能影响识别准确率
  • Token 管理:需妥善保管 API Token,避免泄露导致滥用

安全与可信度

MinerU CLI 为官方开源客户端,源码可审计。数据处理完成后服务端不保留内容,但传输过程仍需注意敏感信息保护。建议非敏感文档优先使用,机密文件考虑本地替代方案。

安全解读

核心用法

MinerU Document Extractor 是一款由上海人工智能实验室 OpenDataLab 团队开发的专业文档解析工具,通过 mineru-open-api CLI 提供两种提取模式:

1. flash-extract(快速模式):无需 token、零配置即用,支持 ≤10MB/20页的文件,直接输出 Markdown,内置 OCR、表格识别、公式识别,适合快速预览和简单文档处理。

2. extract(专业模式):需 token 认证,支持 VLM(视觉语言模型)高精度布局分析,可输出 Markdown、HTML、LaTeX、DOCX、JSON 五种格式,支持批量处理和更大文件,适合复杂排版文档和科研场景。

3. crawl(网页提取):将任意网页转换为结构化 Markdown。

显著优点

  • 格式覆盖全面:PDF、Word、PPT、图片、网页全覆盖,支持 .doc/.ppt 等老旧格式
  • 双语深度优化:原生支持中文、英文、日文、韩文、阿拉伯文等 80+ 语言,学术文档解析效果优异
  • 双模式灵活:flash-extract 即开即用降低门槛,extract 模式满足专业精度需求
  • VLM 智能解析:视觉语言模型可处理复杂版面(多栏、图文混排、手写批注),显著优于传统 OCR
  • 批量处理能力:支持通配符批量提取,提升数据工程效率

潜在局限

  • 云服务依赖:所有处理需上传至 mineru.net 服务器,无法离线使用;敏感文档存在数据出境风险
  • 容量限制:免费快速模式限 10MB/20页,大文档需申请 token 使用专业模式
  • VLM 幻觉风险:高精度模式下极少数复杂场景可能产生文字幻觉,关键内容建议用 pipeline 模式复核
  • 输出单一性:flash-extract 仅输出 Markdown,需富格式时需切换 extract 模式

适合人群

  • 科研人员解析学术论文、技术报告(含公式、表格)
  • 数据工程师构建文档自动化处理流水线
  • 知识管理用户将本地文档库转为可搜索的 Markdown 格式
  • 开发者集成文档解析能力至自有应用

常规风险提示

  • 隐私合规:文档内容上传至第三方服务器,虽声明处理后立即删除,但高度敏感材料建议先脱敏或评估合规要求
  • Token 安全:专业模式需妥善保管 MINERU_TOKEN,避免硬编码或提交至代码仓库
  • 网络稳定性:大文件批量处理依赖稳定网络,超时默认 900 秒可调整
  • 格式兼容性:扫描件质量、复杂手写体、极度扭曲的 PDF 可能影响识别准确率

mineru document extractor 内容

手动下载zip · 4.7 kB
SKILL.mdtext/markdown
请选择文件