mineru document extractor

📄 PDF一键转Markdown,表格公式全能识别

开源文档解析神器,零门槛快速提取PDF/Word/PPT为Markdown,专业版支持表格公式OCR与多格式批量处理

收藏
7k
安装
3.2k
版本
0.1.21
CLS 安全性认证2026-05-17
点击查看完整报告 >

使用说明

核心用法

mineru 是 MinerU 生态的命令行文档提取工具,提供两种工作模式:

  • flash-extract(闪电提取):无需注册、无需 Token、零配置即开即用,将 PDF、图片、Word、PPT 快速转为 Markdown,适合 10MB/20页以内的小型文档快速预览
  • extract(精准提取):需配置 API Token,支持表格识别、LaTeX 公式提取、扫描件 OCR、VLM 智能版面分析、多格式输出(HTML/LaTeX/DOCX/JSON)及批量处理,适合学术论文、复杂报表、生产级文档流水线

关键特性

  • 双模型策略vlm 模型针对复杂版面(学术论文、混排图文)提供更高精度;pipeline 模型承诺零幻觉,确保内容绝对忠实原文
  • 多语言支持:覆盖 80+ 语言,包括中文、英文、日文、韩文、阿拉伯语、印地语及拉丁/西里尔语系全家桶
  • 网页抓取crawl 命令可将任意网页转为结构化 Markdown

显著优点

1. 零门槛入门:flash-extract 彻底消除注册流程,首次使用无需任何配置
2. 学术场景优化:针对论文 PDF 的栏位分割、图表混排、数学公式有专门优化

3. 格式生态完整:输出可衔接 Markdown 笔记工具、LaTeX 学术写作、Word 办公协作、JSON 数据工程

4. 批处理能力:支持通配符、文件列表、stdin 管道等多种批量输入方式

潜在缺点与局限性

  • flash-extract 功能受限:不支持表格/公式识别、仅输出 Markdown、单文件 10MB/20页上限、存在 IP 级速率限制(HTTP 429)
  • Token 配额依赖:精准提取需 mineru.net 账户与 API Token,重度使用受限于商业配额
  • VLM 模型幻觉风险:虽然精度更高,但复杂版面下偶发文字幻觉,需人工校对关键内容
  • 旧格式支持不全.doc/.ppt 仅 extract 支持,flash-extract 无法处理

适合人群

  • 研究人员:快速解析 arXiv 论文、提取表格数据、转换 LaTeX 公式
  • 知识管理用户:将本地 PDF 书库、Word 笔记批量转为 Obsidian/Notion 可用的 Markdown
  • 数据工程师:构建文档处理流水线,自动化提取结构化内容
  • 开发者:通过 CLI 集成到 CI/CD 或文档构建工具链

常规风险

  • 隐私合规:上传文档至 mineru.net 云端处理,敏感文件建议确认服务商数据处理条款或等待后续私有化部署选项
  • 速率限制误伤:flash-extract 的 IP 限流可能导致自动化脚本意外中断,生产环境建议配置 Token 使用 extract
  • 输出覆盖:未指定 -o 时结果输出至 stdout,批处理时务必配置输出目录避免内容混淆

安全解读

核心功能

mineru 是一款由 OpenDataLab 开发的文档解析工具,专注于将 PDF、扫描件、图片、Word、PowerPoint 及网页内容高质量转换为结构化格式(Markdown、HTML、LaTeX、DOCX)。工具采用双模式架构满足不同场景需求:

flash-extract(零门槛模式)

无需注册、无需 Token、无需配置,安装即用。支持 10MB 以内、20 页以下的文档快速提取,输出 Markdown 格式,内置 OCR 能力可处理扫描件,适合临时使用或首次体验。

extract(高精度模式)

需配置 API Token,解锁完整能力:

  • 表格识别:复杂表格结构还原
  • 公式识别:LaTeX 数学公式提取
  • 多格式输出:md、html、latex、docx、json
  • 批量处理:支持通配符和文件列表
  • 模型选择vlm 模型针对学术论文等复杂布局优化,pipeline 模型零幻觉保障

显著优点

1. 即开即用:flash-extract 彻底消除配置门槛,降低首次使用成本
2. 精度领先:VLM 视觉语言模型对复杂排版(多栏、图文混排、公式)的解析准确率显著优于传统 OCR

3. 语言覆盖广:支持 80+ 语言,包括中文、英文、日文、韩文、阿拉伯语等,并针对拉丁、阿拉伯、西里尔等语系提供优化包

4. 学术友好:专为科研场景设计,PDF 论文、预印本网站的解析效果经过专门优化

5. 批量自动化:支持命令行管道操作,可集成到数据处理流水线

潜在局限

  • flash-extract 限制严格:10MB/20 页上限,无表格/公式识别,仅输出 Markdown
  • Token 依赖:完整功能需注册获取 API Token,对离线环境不友好
  • 网络依赖:所有处理依赖云端 API,无法本地离线运行
  • VLM 幻觉风险:高精度模式下复杂文档偶现内容幻觉,需人工校验关键数据
  • 格式兼容性:部分老旧 .doc/.ppt 格式需 extract 模式,flash-extract 不支持

适用人群

  • 研究人员:批量下载解析 arXiv 等学术论文,提取图表和参考文献
  • 数据工程师:构建文档处理 ETL 管道,标准化非结构化文档输入
  • 知识管理用户:将散落各格式的资料库统一转为 Markdown 导入笔记系统
  • 开发者:需要程序化文档解析能力,集成到自动化工作流

常规风险提示

1. API Token 安全:Token 存储于本地配置文件,共享环境需设置 MINERU_TOKEN 环境变量替代持久化存储
2. IP 限流:flash-extract 存在每 IP 频率限制,大规模处理需升级至 extract 模式

3. 隐私合规:文档内容上传至 MinerU 云服务,敏感文件需评估数据出境合规性

4. 输出验证:重要场景建议人工抽查,尤其是 VLM 模式下的数字和专有名词

---

总体评估:mineru 是当前开源/免费层级中文档解析综合能力最强的工具之一,双模式设计兼顾了尝鲜体验与生产需求,适合将文档解析作为工作流关键节点的用户深度采用。

mineru document extractor 内容

手动下载zip · 7.7 kB
SKILL.mdtext/markdown
请选择文件