mineru document extractor

📄 PDF一键转Markdown,学术公式表格精准识别

document-processing榜 #5

MinerU 是 OpenDataLab 推出的高精度文档提取工具,支持 PDF、Word、PPT、图片等多格式转 Markdown/HTML/LaTeX,含免登录快速模式与专业 OCR、表格公式识别双模式

收藏
13.5k
安装
3.2k
版本
0.1.23
CLS 安全性认证2026-05-21
点击查看完整报告 >

使用说明

核心能力

MinerU 提供一站式文档解析解决方案,覆盖从学术论文到办公文档的全场景需求。工具采用双模式架构:

flash-extract(免登录快速模式):零配置即开即用,无需 Token 或注册,10MB/20页以内文档秒转 Markdown,适合快速预览和简单提取。

extract(专业精确模式):需 API Token,支持表格识别、LaTeX 公式提取、OCR 扫描件处理、VLM 视觉布局分析、批量处理及多格式输出(md/html/latex/docx/json),单文件容量和页数上限显著提升。

显著优势

  • 格式兼容性广:PDF、DOC/DOCX、PPT/PPTX、图片(PNG/JPG/WebP 等)、网页 URL 全支持,覆盖 80+ 语言
  • 学术场景优化:针对论文复杂排版、混合内容、表格公式专项优化,vlm 模型在复杂布局上准确率更高
  • 零门槛起步:flash-extract 完全免登录,降低首次使用成本
  • 灵活部署:支持命令行、npm/Go 安装、私有 API 部署

潜在局限

  • 功能分层限制:核心高级功能(表格、公式、批量、多格式)锁在 Token 模式后,免费层有明显天花板
  • vlm 模型幻觉风险:高准确率模式下存在极少量文本幻觉可能,pipeline 模型虽无幻觉但精度稍逊
  • 数据隐私:文档内容需上传至 mineru.net 服务端处理,虽声明不保留数据,但仍属外发处理
  • IP 限频:flash-extract 存在每分钟请求上限,高频使用易触发 429

适合人群

学术研究者、数据工程师、开发者构建文档流水线、需批量处理历史档案的数字化团队

常规风险

  • 隐私敏感文档:涉及机密、个人隐私、商业敏感内容的文件不建议使用在线 API
  • 大文件超时:默认 900 秒超时,超大 PDF 需手动调高 --timeout
  • DOC 旧格式:.doc 和 .ppt 仅 extract 支持,flash-extract 不兼容

安全解读

核心功能

MinerU 是一款由 OpenDataLab 维护的开源文档提取工具,通过 CLI 客户端 mineru-open-api 提供两种工作模式:

  • flash-extract(快速模式):零配置免 Token,支持 10MB/20页以内文档的即时 Markdown 转换
  • extract(专业模式):需 API Token,支持表格识别、LaTeX 公式提取、OCR、多格式输出(HTML/LaTeX/DOCX/JSON)及批量处理

显著优点

1. 双模式设计灵活:新手可用 flash-extract 立即上手,专业用户通过 Token 解锁完整能力
2. 多格式覆盖:支持 PDF、Word(DOC/DOCX)、PPT、图片及网页爬取,80+ 语言包括中日韩阿拉伯语等

3. 模型可选vlm 模式针对复杂学术布局优化,pipeline 模式提供零幻觉保证

4. 隐私友好:明确声明数据不持久化存储,支持免 Token 匿名模式降低身份关联

潜在局限

  • 服务端依赖:文档内容需上传至 mineru.net 处理,敏感机密文档建议本地部署
  • 功能分层限制:核心能力(表格/公式/批处理)绑定 Token 认证,免费层级有速率限制
  • 学习成本:两种模式、多种模型选择需用户理解差异才能发挥最佳效果

适合人群

  • 研究人员:解析学术论文、提取表格与数学公式
  • 数据工程师:批量文档流水线处理、格式转换
  • 开发者:集成文档解析能力到自动化工作流
  • 内容创作者:网页抓取、多格式文档整理

常规风险

  • 文档上传至第三方服务器(已明确声明)
  • Token 本地存储需关注文件权限安全
  • 依赖外部 CLI 工具需从官方渠道安装

安全认证

通过 CLS-Certify v2.1.0 扫描,获 S+ 级(95分) 认证:静态分析 98 分、动态行为 100 分、依赖审计 100 分、网络分析 88 分、隐私合规 95 分、威胁情报 92 分。来源可信度 T2(可信组织/GitHub 账号)。

mineru document extractor 内容

手动下载zip · 8.0 kB
SKILL.mdtext/markdown
请选择文件