核心用法
MinerU 是 OpenDataLab 开发的开源文档解析工具,提供 API 服务将 PDF、Word、PPT 及图片转换为结构化的 Markdown 格式。用户通过 Bearer Token 认证,调用 /api/v4/extract/task 端点提交文件 URL,轮询获取解析结果。支持批量处理、公式识别(LaTeX 输出)、表格结构还原、多语言 OCR 及版面分析等功能。
显著优点
1. 学术场景优化:公式保留为 LaTeX、表格结构完整识别,特别适合论文解析
2. 多模型选择:pipeline 快速版、vlm 高精度版、MinerU-HTML 网页样式版满足差异化需求
3. 开源背景:GitHub 开源项目,技术透明度高,社区活跃
4. 批量效率:支持批量提交,比单文件处理更节省配额
潜在缺点与局限性
- 依赖外部服务:API 调用需联网,存在服务可用性风险
- 配额限制:单文件 200MB/600 页上限,并发数受套餐约束
- 轮询模式:非 Webhook 推送,需自行实现状态轮询逻辑
- VLM 模型慢:高精度版本解析速度显著降低
适合人群
- 科研人员、学生(论文精读、文献整理)
- 知识管理用户(构建个人知识库)
- 需批量处理文档的自动化工作流开发者
常规风险
- API Token 泄露导致配额被盗用
- 敏感文档上传至第三方服务器的隐私顾虑
- 解析结果需人工校验,复杂版面可能存在识别误差