使用说明

核心用法

pdf-extract 是一个极简的 PDF 文本提取工具，专为 LLM 场景设计。用户通过简单的命令即可将 PDF 文档转换为纯文本：基础用法为 pdf-extract "document.pdf" 提取全文，或指定页码范围 pdf-extract "document.pdf" --pages 1-5 进行局部提取。该技能本身不执行复杂逻辑，而是调用系统预装的 pdftotext 命令完成实际转换工作。

显著优点

架构简洁透明：无自定义代码执行，完全依赖成熟的外部工具，代码可审计性极高。依赖可靠：pdftotext 来自 Poppler 开源项目，是 Linux 发行版的标准组件，经过长期安全验证。零网络风险：不涉及任何网络通信，杜绝数据外泄可能。沙箱友好：仅需文件读取和执行权限，易于在受限环境中部署。

潜在缺点与局限性

功能单一：仅支持文本提取，无法处理扫描版 PDF（需 OCR）、无法保留格式信息、不支持表格或图片内容提取。系统依赖强：必须预装 poppler-utils 包，跨平台部署存在环境配置成本。输入风险：PDF 文件路径直接传递给系统命令，若未妥善验证可能存在路径遍历风险。无高级特性：不支持密码保护 PDF 的解密、不支持批量处理优化、无输出格式定制选项。

适合的目标群体

该技能最适合以下场景：需要快速将 PDF 论文、报告、合同等文档送入 LLM 进行摘要或问答的知识工作者；构建 RAG 流水线需要纯文本中间件的开发者；在受控服务器环境中进行文档处理的运维人员；以及对工具透明度有严格要求的安全敏感型用户。不适合需要复杂 PDF 解析（如表格提取、版面分析）或处理扫描文档的场景。

使用风险

命令注入风险：虽然 skill 框架会对参数进行处理，但极端情况下恶意构造的文件路径仍可能引发意外行为，建议配合路径白名单使用。依赖版本风险：系统 pdftotext 版本过旧可能存在已知漏洞，需保持依赖更新。性能瓶颈：超大 PDF 或批量处理时，外部进程调用开销明显，无内置并发优化。错误处理有限：依赖工具的退出码和 stderr，复杂 PDF（损坏、加密）的错误信息可能不够友好。

安全解读

核心用法

pdf-extract 是一个纯文档型 Skill，通过 Markdown 格式提供 PDF 文本提取的指导说明。用户需手动安装 poppler-utils 系统包后，使用 pdftotext 命令行工具将 PDF 转换为纯文本，供 LLM 进一步处理。支持全文档提取和指定页码范围提取两种模式。

显著优点

零代码执行风险：纯 Markdown 文档，无可执行脚本，Skill 本身不会运行任何代码
功能单一明确：仅聚焦 PDF 转文本，依赖成熟开源工具 poppler-utils（Poppler 项目官方组件）
本地化处理：无需上传文件至云端，数据完全在本地处理
透明可审计：所有操作均为公开的系统命令，用户可完全掌控执行过程
安全认证优秀：CLS-Certify 评分 95 分，S级安全评级

潜在缺点与局限性

依赖手动配置：需用户自行安装系统级依赖，无法开箱即用
平台限制：pdftotext 和 dnf 包管理器主要面向 Linux（Fedora/RHEL 系），macOS 和 Windows 用户需额外配置
无智能解析：仅提取原始文本，不保留表格结构、图片 OCR 或复杂排版
扫描件 PDF 不支持：纯图像型 PDF 无法直接提取文字，需配合 OCR 工具
无错误处理：Skill 本身不提供命令执行失败的反馈机制

适合人群

需要快速提取 PDF 文本用于 LLM 分析的 Linux 用户
注重数据隐私、偏好本地处理的技术人员
熟悉命令行操作、能自主解决依赖安装问题的开发者

常规风险

供应链风险：需确保从官方仓库安装 poppler-utils，避免第三方源污染
用户误操作：示例中的 sudo 命令若被盲目复制执行，可能影响系统安全
PDF 来源风险：处理来路不明的 PDF 文件可能存在恶意链接或脚本（虽 Skill 仅提取文本，但建议先进行安全扫描）

docs productivity automation data-analytics backend

pdf-extract 内容

手动下载zip · 779 B

SKILL.mdtext/markdown

请选择文件