mineru document extractor

📄 智能文档解析 · 一键转 Markdown

PDF/Word/PPT 转 Markdown 的 CLI 工具,支持 OCR、表格公式识别与批量处理,零配置快速模式或高精度专业模式可选

收藏
11.4k
安装
3.3k
版本
0.1.25
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

MinerU 提供双模式文档解析方案:flash-extract 免登录即时转换,适合 10MB/20页以内的小型文档快速处理;extract 需 Token 激活,支持表格识别、公式转 LaTeX、VLM 智能版面分析、批量处理及多格式输出(Markdown/HTML/LaTeX/DOCX)。另有 crawl 子命令可将网页转为结构化文档。

典型工作流:小文件直接用 flash-extract 零门槛启动;复杂排版或学术文献切至 extract --model vlm 获取最佳识别效果;对准确性要求极高时选用 pipeline 模型规避幻觉风险。支持 80+ 语言,涵盖中英文、日语、韩语、阿拉伯语等,适配全球化文档场景。

显著优点

  • 双模式灵活切换:免费快速模式降低试用成本,专业模式满足生产级精度需求
  • 多格式全覆盖:原生支持 PDF、Word(DOC/DOCX)、PPT(PPT/PPTX)、图片及网页抓取
  • 学术场景优化:内置公式识别(LaTeX 输出)与复杂表格解析,研究论文处理效率高
  • 批量与自动化:支持通配符批量处理、并发控制及程序化集成
  • 跨平台部署:NPM 与 Go 双渠道安装,兼容 macOS/Linux/Windows

潜在局限

  • VLM 模型存在幻觉风险:复杂布局下可能生成非原文内容,需人工校验关键数据
  • Token 依赖:高级功能需注册获取 API Token,离线环境受限
  • 文件限制:快速模式 10MB/20 页上限,超大文档必须切换付费模式
  • 语言包体积:部分语种需额外下载模型资源,首次使用有准备成本

适合人群

学术研究者(论文解析)、数据工程师(批量文档流水线)、开发者(构建文档 RAG/知识库)、内容运营(网页转结构化素材)。

常规风险

  • 隐私合规:文档上传至云端处理,敏感资料需脱敏或评估本地化部署方案
  • Token 泄露~/.mineru/config.yaml 或环境变量存储凭证,多用户环境需权限管控
  • 输出验证:公式/表格识别错误可能导致下游计算偏差,关键场景建议人工复核

mineru document extractor 内容

手动下载zip · 4.5 kB
SKILL.mdtext/markdown
请选择文件