核心用法
mineru 是 MinerU 生态的命令行文档提取工具,提供两种工作模式:
- flash-extract(闪电提取):无需注册、无需 Token、零配置即开即用,将 PDF、图片、Word、PPT 快速转为 Markdown,适合 10MB/20页以内的小型文档快速预览
- extract(精准提取):需配置 API Token,支持表格识别、LaTeX 公式提取、扫描件 OCR、VLM 智能版面分析、多格式输出(HTML/LaTeX/DOCX/JSON)及批量处理,适合学术论文、复杂报表、生产级文档流水线
关键特性
- 双模型策略:
vlm模型针对复杂版面(学术论文、混排图文)提供更高精度;pipeline模型承诺零幻觉,确保内容绝对忠实原文 - 多语言支持:覆盖 80+ 语言,包括中文、英文、日文、韩文、阿拉伯语、印地语及拉丁/西里尔语系全家桶
- 网页抓取:
crawl命令可将任意网页转为结构化 Markdown
显著优点
1. 零门槛入门:flash-extract 彻底消除注册流程,首次使用无需任何配置
2. 学术场景优化:针对论文 PDF 的栏位分割、图表混排、数学公式有专门优化
3. 格式生态完整:输出可衔接 Markdown 笔记工具、LaTeX 学术写作、Word 办公协作、JSON 数据工程
4. 批处理能力:支持通配符、文件列表、stdin 管道等多种批量输入方式
潜在缺点与局限性
- flash-extract 功能受限:不支持表格/公式识别、仅输出 Markdown、单文件 10MB/20页上限、存在 IP 级速率限制(HTTP 429)
- Token 配额依赖:精准提取需 mineru.net 账户与 API Token,重度使用受限于商业配额
- VLM 模型幻觉风险:虽然精度更高,但复杂版面下偶发文字幻觉,需人工校对关键内容
- 旧格式支持不全:
.doc/.ppt仅 extract 支持,flash-extract 无法处理
适合人群
- 研究人员:快速解析 arXiv 论文、提取表格数据、转换 LaTeX 公式
- 知识管理用户:将本地 PDF 书库、Word 笔记批量转为 Obsidian/Notion 可用的 Markdown
- 数据工程师:构建文档处理流水线,自动化提取结构化内容
- 开发者:通过 CLI 集成到 CI/CD 或文档构建工具链
常规风险
- 隐私合规:上传文档至 mineru.net 云端处理,敏感文件建议确认服务商数据处理条款或等待后续私有化部署选项
- 速率限制误伤:flash-extract 的 IP 限流可能导致自动化脚本意外中断,生产环境建议配置 Token 使用 extract
- 输出覆盖:未指定
-o时结果输出至 stdout,批处理时务必配置输出目录避免内容混淆