核心能力
MinerU 提供一站式文档解析解决方案,覆盖从学术论文到办公文档的全场景需求。工具采用双模式架构:
flash-extract(免登录快速模式):零配置即开即用,无需 Token 或注册,10MB/20页以内文档秒转 Markdown,适合快速预览和简单提取。
extract(专业精确模式):需 API Token,支持表格识别、LaTeX 公式提取、OCR 扫描件处理、VLM 视觉布局分析、批量处理及多格式输出(md/html/latex/docx/json),单文件容量和页数上限显著提升。
显著优势
- 格式兼容性广:PDF、DOC/DOCX、PPT/PPTX、图片(PNG/JPG/WebP 等)、网页 URL 全支持,覆盖 80+ 语言
- 学术场景优化:针对论文复杂排版、混合内容、表格公式专项优化,vlm 模型在复杂布局上准确率更高
- 零门槛起步:flash-extract 完全免登录,降低首次使用成本
- 灵活部署:支持命令行、npm/Go 安装、私有 API 部署
潜在局限
- 功能分层限制:核心高级功能(表格、公式、批量、多格式)锁在 Token 模式后,免费层有明显天花板
- vlm 模型幻觉风险:高准确率模式下存在极少量文本幻觉可能,pipeline 模型虽无幻觉但精度稍逊
- 数据隐私:文档内容需上传至 mineru.net 服务端处理,虽声明不保留数据,但仍属外发处理
- IP 限频:flash-extract 存在每分钟请求上限,高频使用易触发 429
适合人群
学术研究者、数据工程师、开发者构建文档流水线、需批量处理历史档案的数字化团队
常规风险
- 隐私敏感文档:涉及机密、个人隐私、商业敏感内容的文件不建议使用在线 API
- 大文件超时:默认 900 秒超时,超大 PDF 需手动调高 --timeout
- DOC 旧格式:.doc 和 .ppt 仅 extract 支持,flash-extract 不兼容