mineru-pdf - AI 驱动的 PDF 智能解析与提取工具

使用说明

MinerU PDF Parser 是一款专注于结构化文档解析的 Agent Skill，基于开源 MinerU 技术栈构建，专为 Claude Code 环境优化。该技能提供两种核心使用模式：Direct Tool 模式通过本地 Python 脚本直接调用解析引擎，输出文件永久保存至用户指定目录，适合批量处理和自动化工作流；MCP 模式则通过标准 MCP 协议与 Claude Code 深度集成，提供即时的交互式解析体验，但需注意临时文件会自动清理。

该技能的核心用法围绕 parse_pdf 工具展开，支持三种差异化后端引擎：pipeline 提供快速通用的 CPU 解析能力，vlm-mlx-engine 针对 Apple Silicon（M1/M2/M3/M4）进行 MLX 框架深度优化，在保持高质量的同时显著提升推理速度，而 vlm-transformers 则以最高精度处理复杂版面，适合对准确性要求极高的场景。用户可灵活启用或禁用公式识别（LaTeX 输出）与表格提取（Markdown 格式）功能，并支持指定页码范围进行局部解析，有效平衡性能与资源消耗。

显著优点包括：第一，原生支持 Apple Silicon 硬件加速，M4 芯片上可实现约 38 秒/页的处理速度，大幅优于传统纯 CPU 方案；第二，输出格式高度结构化，不仅保留文档层级，更将数学公式转换为标准 LaTeX、表格转换为 Markdown 格式，便于后续编辑和学术引用；第三，完整的本地化处理流程，所有计算均在设备端完成，无需上传敏感文档至云端，配合 OCR 能力可处理扫描版 PDF；第四，完善的 Python 环境集成，通过 uvx 实现依赖自动管理，避免污染系统环境。

潜在缺点与局限性不容忽视：项目来源为 GitHub 个人开发者（T3 级），长期维护稳定性和安全更新频率存在不确定性；首次运行需下载机器学习模型（约 5-10 分钟），且模型文件占用较大存储空间；虽然支持 MLX 加速，但非 Apple Silicon 设备仅能以 CPU 模式运行，处理速度相对较慢；MCP 模式下的临时文件机制可能导致数据未预期丢失，需特别注意文件持久化策略。

该技能特别适合以下群体：学术研究人员需要批量提取论文中的公式和表格数据；知识管理团队进行历史文档数字化与知识库构建；Apple Silicon 生态用户追求高效的本地文档处理方案；以及开发者需要集成 PDF 解析能力至自动化脚本或数据处理管线。

使用过程中的常规风险包括：依赖项方面，mcp-mineru 包的版本更新可能引入 API 变更，建议锁定版本并进行回归测试；性能方面，大文档或高分辨率扫描件可能导致内存占用激增或处理超时，建议采用分页解析策略；存储方面，模型缓存位于 ~/.cache/uv/，需定期清理避免磁盘空间不足；兼容性方面，极度复杂的版式或手写内容识别准确率可能下降，建议对关键文档进行人工校验。

docs data-analytics productivity automation content-media

mineru-pdf 内容

手动下载zip · 6.0 kB

parse.pytext/plain

请选择文件