使用说明

核心功能与用法

MinerU 是 OpenDataLab 开源的文档提取 CLI 工具，通过 mineru-open-api 命令实现多格式文档的智能解析。核心工作流分为两档：

MinerU flash-extract（快速模式）：零配置、免登录、免 Token，直接运行即可将 PDF/图片/Word/PPT（≤10MB，≤20页）转换为 Markdown，支持表格识别、公式识别和 OCR，适合临时单文件处理。

MinerU extract（专业模式）：需注册 Token，支持 VLM 视觉语言模型和 pipeline 模型双引擎，输出格式扩展至 HTML、LaTeX、DOCX、JSON，支持批量处理、网页爬取（crawl 子命令），文件大小和页数限制大幅放宽。

关键参数：--model vlm 擅长复杂布局但偶有幻觉风险；--model pipeline 零幻觉更可靠；--language 支持 80+ 语言包括中英日韩阿等语系包。

显著优点

1. 双模式灵活切换：快速模式 3 秒上手，专业模式满足生产级需求
2. 多格式全栈支持：原生 PDF、扫描件 OCR、Word DOC/DOCX、PPT PPT/PPTX、网页 URL 统一处理
3. 学术场景优化：公式识别、表格保留、多栏布局解析针对论文场景调优
4. 开源可信：OpenDataLab 官方维护，CLI 源码可查，API 数据不保留
5. 国际化完善：除简中外，对繁体、日文、韩文、阿拉伯文、泰文等提供专门语言包

潜在局限与风险

VLM 模型幻觉：复杂排版下可能生成不存在的内容，关键场景建议用 pipeline 模型复核
免费额度限制：flash-extract 有 10MB/20 页硬限制；extract 模式受 Token 配额约束
网络依赖：所有处理需上传至 mineru.net 服务端，敏感文档存在传输风险
二进制格式输出：DOCX 等格式必须指定 -o 目录，无法直接 stdout 输出
旧版格式支持：.doc/.ppt 仅 extract 模式支持，flash-extract 不支持

适合人群

学术研究者：批量下载论文、提取公式表格、构建知识库
数据工程师：搭建文档 ETL 管道，将非结构化文档转为结构化 Markdown
内容运营：网页爬取、Word 转 Markdown 发布、多语言文档本地化
开发者：集成 CLI 至自动化工作流，替代传统 PDF 解析库

常规风险提示

1. 隐私合规：文档内容上传至第三方服务器，含敏感信息的文件建议本地私有化部署替代方案
2. Token 管理：~/.mineru/config.yaml 明文存储 Token，共享环境需配置 MINERU_TOKEN 环境变量替代
3. 版本锁定：生产环境建议固定 CLI 版本，避免自动升级导致 API 行为变更
4. 输出校验：关键业务数据提取后应人工抽检表格行列对齐、公式符号完整性

安全解读

核心用法

MinerU Document Extractor 是 OpenDataLab 官方推出的文档提取 CLI 工具封装 Skill，支持将 PDF、扫描件、图片、Word、PPT 及网页转换为干净的 Markdown、HTML、LaTeX 或 DOCX 格式。

两种提取模式：

Flash-extract（免 token）：零配置即用，支持表格识别、公式识别、OCR，但限制 10MB/20 页，仅输出 Markdown
Precision extract（需 token）：支持 VLM 布局分析、多格式输出、批量处理，适合复杂文档与大文件

典型场景：PDF 转 Markdown、扫描件 OCR、学术论文表格公式提取、Word/PPT 批量转换、网页内容爬取。

显著优点

1. 官方背书，可信度高：OpenDataLab 为知名开源数据组织，MinerU 是成熟开源项目
2. 双模式灵活适配：快速模式免登录即用，专业模式支持 VLM 高精度解析
3. 多格式全能支持：覆盖 80+ 语言，支持 PDF/Word/PPT/图片/网页等主流格式
4. 学术场景优化：专门优化表格、公式、多栏布局识别，适合论文与技术文档
5. 批量处理能力：支持通配符批量提取与并发控制，适合数据工程规模化处理

潜在缺点与局限

1. 功能分层限制：高级功能（批量、多格式、VLM）需注册获取 token，增加使用门槛
2. 快速模式容量受限：10MB/20 页限制对大文档不够友好
3. VLM 模型幻觉风险：高精度模式在复杂布局下可能产生罕见幻觉文本
4. 网络依赖：所有提取需上传至 MinerU 云端 API 处理，离线场景不可用
5. 隐私敏感场景需谨慎：文档内容需传输至第三方服务器，虽声明不保留数据，但敏感文档仍需评估

适合人群

科研人员：需要解析含表格、公式的学术论文与技术报告
开发者/数据工程师：构建文档处理流水线，需要批量、可编程的提取方案
知识管理用户：将分散的 PDF/Word 资料整理为统一的 Markdown 知识库
内容创作者：快速提取网页或文档内容用于二次创作

常规风险

数据外发：文档上传至 mineru.net 服务器处理，虽通过 HTTPS 加密且声明不保留数据，但敏感商业或个人隐私文档需审慎
API 服务依赖：服务可用性与速率限制受官方平台制约
Token 管理：专业模式需妥善保管个人 API token，避免泄露

pdf-extraction document-parsing ocr markdown-conversion batch-processing academic-papers table-recognition formula-extraction vlm cli-tool

mineru document extractor 内容

手动下载zip · 4.7 kB

SKILL.mdtext/markdown

请选择文件