使用说明

核心用法

MinerU 提供双模式文档解析方案：flash-extract 免登录即时转换，适合 10MB/20页以内的小型文档快速处理；extract 需 Token 激活，支持表格识别、公式转 LaTeX、VLM 智能版面分析、批量处理及多格式输出（Markdown/HTML/LaTeX/DOCX）。另有 crawl 子命令可将网页转为结构化文档。

典型工作流：小文件直接用 flash-extract 零门槛启动；复杂排版或学术文献切至 extract --model vlm 获取最佳识别效果；对准确性要求极高时选用 pipeline 模型规避幻觉风险。支持 80+ 语言，涵盖中英文、日语、韩语、阿拉伯语等，适配全球化文档场景。

显著优点

双模式灵活切换：免费快速模式降低试用成本，专业模式满足生产级精度需求
多格式全覆盖：原生支持 PDF、Word（DOC/DOCX）、PPT（PPT/PPTX）、图片及网页抓取
学术场景优化：内置公式识别（LaTeX 输出）与复杂表格解析，研究论文处理效率高
批量与自动化：支持通配符批量处理、并发控制及程序化集成
跨平台部署：NPM 与 Go 双渠道安装，兼容 macOS/Linux/Windows

潜在局限

VLM 模型存在幻觉风险：复杂布局下可能生成非原文内容，需人工校验关键数据
Token 依赖：高级功能需注册获取 API Token，离线环境受限
文件限制：快速模式 10MB/20 页上限，超大文档必须切换付费模式
语言包体积：部分语种需额外下载模型资源，首次使用有准备成本

适合人群

学术研究者（论文解析）、数据工程师（批量文档流水线）、开发者（构建文档 RAG/知识库）、内容运营（网页转结构化素材）。

常规风险

隐私合规：文档上传至云端处理，敏感资料需脱敏或评估本地化部署方案
Token 泄露：~/.mineru/config.yaml 或环境变量存储凭证，多用户环境需权限管控
输出验证：公式/表格识别错误可能导致下游计算偏差，关键场景建议人工复核

document-processing pdf-to-markdown ocr cli-tool academic-research data-extraction batch-processing

mineru document extractor 内容

手动下载zip · 4.5 kB

SKILL.mdtext/markdown

请选择文件