使用说明

核心用法

mineru 是 MinerU 生态的命令行文档提取工具，提供两种工作模式：

flash-extract（闪电提取）：无需注册、无需 Token、零配置即开即用，将 PDF、图片、Word、PPT 快速转为 Markdown，适合 10MB/20页以内的小型文档快速预览
extract（精准提取）：需配置 API Token，支持表格识别、LaTeX 公式提取、扫描件 OCR、VLM 智能版面分析、多格式输出（HTML/LaTeX/DOCX/JSON）及批量处理，适合学术论文、复杂报表、生产级文档流水线

关键特性

双模型策略：vlm 模型针对复杂版面（学术论文、混排图文）提供更高精度；pipeline 模型承诺零幻觉，确保内容绝对忠实原文
多语言支持：覆盖 80+ 语言，包括中文、英文、日文、韩文、阿拉伯语、印地语及拉丁/西里尔语系全家桶
网页抓取：crawl 命令可将任意网页转为结构化 Markdown

显著优点

1. 零门槛入门：flash-extract 彻底消除注册流程，首次使用无需任何配置
2. 学术场景优化：针对论文 PDF 的栏位分割、图表混排、数学公式有专门优化
3. 格式生态完整：输出可衔接 Markdown 笔记工具、LaTeX 学术写作、Word 办公协作、JSON 数据工程
4. 批处理能力：支持通配符、文件列表、stdin 管道等多种批量输入方式

潜在缺点与局限性

flash-extract 功能受限：不支持表格/公式识别、仅输出 Markdown、单文件 10MB/20页上限、存在 IP 级速率限制（HTTP 429）
Token 配额依赖：精准提取需 mineru.net 账户与 API Token，重度使用受限于商业配额
VLM 模型幻觉风险：虽然精度更高，但复杂版面下偶发文字幻觉，需人工校对关键内容
旧格式支持不全：.doc/.ppt 仅 extract 支持，flash-extract 无法处理

适合人群

研究人员：快速解析 arXiv 论文、提取表格数据、转换 LaTeX 公式
知识管理用户：将本地 PDF 书库、Word 笔记批量转为 Obsidian/Notion 可用的 Markdown
数据工程师：构建文档处理流水线，自动化提取结构化内容
开发者：通过 CLI 集成到 CI/CD 或文档构建工具链

常规风险

隐私合规：上传文档至 mineru.net 云端处理，敏感文件建议确认服务商数据处理条款或等待后续私有化部署选项
速率限制误伤：flash-extract 的 IP 限流可能导致自动化脚本意外中断，生产环境建议配置 Token 使用 extract
输出覆盖：未指定 -o 时结果输出至 stdout，批处理时务必配置输出目录避免内容混淆

安全解读

核心功能

mineru 是一款由 OpenDataLab 开发的文档解析工具，专注于将 PDF、扫描件、图片、Word、PowerPoint 及网页内容高质量转换为结构化格式（Markdown、HTML、LaTeX、DOCX）。工具采用双模式架构满足不同场景需求：

flash-extract（零门槛模式）

无需注册、无需 Token、无需配置，安装即用。支持 10MB 以内、20 页以下的文档快速提取，输出 Markdown 格式，内置 OCR 能力可处理扫描件，适合临时使用或首次体验。

extract（高精度模式）

需配置 API Token，解锁完整能力：

表格识别：复杂表格结构还原
公式识别：LaTeX 数学公式提取
多格式输出：md、html、latex、docx、json
批量处理：支持通配符和文件列表
模型选择：vlm 模型针对学术论文等复杂布局优化，pipeline 模型零幻觉保障

显著优点

1. 即开即用：flash-extract 彻底消除配置门槛，降低首次使用成本
2. 精度领先：VLM 视觉语言模型对复杂排版（多栏、图文混排、公式）的解析准确率显著优于传统 OCR
3. 语言覆盖广：支持 80+ 语言，包括中文、英文、日文、韩文、阿拉伯语等，并针对拉丁、阿拉伯、西里尔等语系提供优化包
4. 学术友好：专为科研场景设计，PDF 论文、预印本网站的解析效果经过专门优化
5. 批量自动化：支持命令行管道操作，可集成到数据处理流水线

潜在局限

flash-extract 限制严格：10MB/20 页上限，无表格/公式识别，仅输出 Markdown
Token 依赖：完整功能需注册获取 API Token，对离线环境不友好
网络依赖：所有处理依赖云端 API，无法本地离线运行
VLM 幻觉风险：高精度模式下复杂文档偶现内容幻觉，需人工校验关键数据
格式兼容性：部分老旧 .doc/.ppt 格式需 extract 模式，flash-extract 不支持

适用人群

研究人员：批量下载解析 arXiv 等学术论文，提取图表和参考文献
数据工程师：构建文档处理 ETL 管道，标准化非结构化文档输入
知识管理用户：将散落各格式的资料库统一转为 Markdown 导入笔记系统
开发者：需要程序化文档解析能力，集成到自动化工作流

常规风险提示

1. API Token 安全：Token 存储于本地配置文件，共享环境需设置 MINERU_TOKEN 环境变量替代持久化存储
2. IP 限流：flash-extract 存在每 IP 频率限制，大规模处理需升级至 extract 模式
3. 隐私合规：文档内容上传至 MinerU 云服务，敏感文件需评估数据出境合规性
4. 输出验证：重要场景建议人工抽查，尤其是 VLM 模式下的数字和专有名词

---

总体评估：mineru 是当前开源/免费层级中文档解析综合能力最强的工具之一，双模式设计兼顾了尝鲜体验与生产需求，适合将文档解析作为工作流关键节点的用户深度采用。

pdf document-conversion ocr markdown academic extraction batch-processing latex table-recognition document-parsing

mineru document extractor 内容

手动下载zip · 7.7 kB

SKILL.mdtext/markdown

请选择文件