使用说明

核心能力

MinerU 提供一站式文档解析解决方案，覆盖从学术论文到办公文档的全场景需求。工具采用双模式架构：

flash-extract（免登录快速模式）：零配置即开即用，无需 Token 或注册，10MB/20页以内文档秒转 Markdown，适合快速预览和简单提取。

extract（专业精确模式）：需 API Token，支持表格识别、LaTeX 公式提取、OCR 扫描件处理、VLM 视觉布局分析、批量处理及多格式输出（md/html/latex/docx/json），单文件容量和页数上限显著提升。

显著优势

格式兼容性广：PDF、DOC/DOCX、PPT/PPTX、图片（PNG/JPG/WebP 等）、网页 URL 全支持，覆盖 80+ 语言
学术场景优化：针对论文复杂排版、混合内容、表格公式专项优化，vlm 模型在复杂布局上准确率更高
零门槛起步：flash-extract 完全免登录，降低首次使用成本
灵活部署：支持命令行、npm/Go 安装、私有 API 部署

潜在局限

功能分层限制：核心高级功能（表格、公式、批量、多格式）锁在 Token 模式后，免费层有明显天花板
vlm 模型幻觉风险：高准确率模式下存在极少量文本幻觉可能，pipeline 模型虽无幻觉但精度稍逊
数据隐私：文档内容需上传至 mineru.net 服务端处理，虽声明不保留数据，但仍属外发处理
IP 限频：flash-extract 存在每分钟请求上限，高频使用易触发 429

适合人群

学术研究者、数据工程师、开发者构建文档流水线、需批量处理历史档案的数字化团队

常规风险

隐私敏感文档：涉及机密、个人隐私、商业敏感内容的文件不建议使用在线 API
大文件超时：默认 900 秒超时，超大 PDF 需手动调高 --timeout
DOC 旧格式：.doc 和 .ppt 仅 extract 支持，flash-extract 不兼容

安全解读

核心功能

MinerU 是一款由 OpenDataLab 维护的开源文档提取工具，通过 CLI 客户端 mineru-open-api 提供两种工作模式：

flash-extract（快速模式）：零配置免 Token，支持 10MB/20页以内文档的即时 Markdown 转换
extract（专业模式）：需 API Token，支持表格识别、LaTeX 公式提取、OCR、多格式输出（HTML/LaTeX/DOCX/JSON）及批量处理

显著优点

1. 双模式设计灵活：新手可用 flash-extract 立即上手，专业用户通过 Token 解锁完整能力
2. 多格式覆盖：支持 PDF、Word（DOC/DOCX）、PPT、图片及网页爬取，80+ 语言包括中日韩阿拉伯语等
3. 模型可选：vlm 模式针对复杂学术布局优化，pipeline 模式提供零幻觉保证
4. 隐私友好：明确声明数据不持久化存储，支持免 Token 匿名模式降低身份关联

潜在局限

服务端依赖：文档内容需上传至 mineru.net 处理，敏感机密文档建议本地部署
功能分层限制：核心能力（表格/公式/批处理）绑定 Token 认证，免费层级有速率限制
学习成本：两种模式、多种模型选择需用户理解差异才能发挥最佳效果

适合人群

研究人员：解析学术论文、提取表格与数学公式
数据工程师：批量文档流水线处理、格式转换
开发者：集成文档解析能力到自动化工作流
内容创作者：网页抓取、多格式文档整理

常规风险

文档上传至第三方服务器（已明确声明）
Token 本地存储需关注文件权限安全
依赖外部 CLI 工具需从官方渠道安装

安全认证

通过 CLS-Certify v2.1.0 扫描，获 S+ 级（95分） 认证：静态分析 98 分、动态行为 100 分、依赖审计 100 分、网络分析 88 分、隐私合规 95 分、威胁情报 92 分。来源可信度 T2（可信组织/GitHub 账号）。

pdf document-extraction ocr markdown academic table-recognition formula-recognition batch-processing opendatalab cli-tool

mineru document extractor 内容

手动下载zip · 8.0 kB

SKILL.mdtext/markdown

请选择文件