使用说明

核心用法

pdf-extract 是一个轻量级的 Skill，专注于将 PDF 文件中的文本内容提取为纯文本，以便于后续交由大语言模型（LLM）处理。它基于 Linux 生态中广泛使用且长期维护的 poppler-utils 包来执行核心操作，支持提取整个文档的文本，也支持通过参数指定页码进行精准提取。这一设计使其成为知识库构建、文档问答、技术文档分析等现代 RAG 场景下的理想预处理工具。

显著优点

极简无污染：代码完全透明，仅包含文档说明和元数据配置，无任何可执行脚本，从根本上避免了恶意代码注入的风险。
绝对本地化：所有处理完全在本地进行，不发起任何网络请求，确保敏感的 PDF 文档内容不会发生任何数据外泄，隐私合规性极强。
依赖可靠：唯一依赖是系统级工具 poppler-utils，这是一个成熟、稳定且经过多年大规模实践检验的组件，功能专一，不存在已知的严重安全漏洞。
功能纯粹：严格遵循所声明的功能设计，没有隐藏行为，没有跨 Skill 数据共享，不会对 Agent 的运行环境进行任何配置修改或提权操作。

潜在缺点与局限性

功能单一：仅提供基础的文本提取功能，无法处理 PDF 内嵌的图片、表格、复杂版面，也不能将 Word 等其他格式转换为 PDF。
对扫描件无效：对于扫描版 PDF（图片型 PDF），由于不存在文本层，pdftotext 将无法提取出任何内容。
来源可信度受限：当前 Skill 托管于私有平台，缺乏公开仓库、组织归属和社区验证，用户无法追溯其完整的开发和维护历史。

适合的目标群体

需要将 PDF 技术文档、论文、财报等批量化喂给本地 LLM 进行分析的研究人员和开发者。
希望构建完全本地化、无数据外泄风险的私有知识库问答系统的个人用户或企业。
追求工具链简洁透明，习惯通过命令行进行自动化文档处理的效率工作者。

使用风险与建议

性能与资源风险：处理超大体积或页数极多的 PDF 文件时，可能会消耗大量 CPU 和内存资源，建议在文档中补充大文件处理的性能基准和资源限制说明。
安全隐患风险：需要警惕用户打开包含恶意代码的“PDF 炸弹”等文件，虽然pdftotext本身相对安全，但仍建议在用户文档中加入相关风险提示。
来源不明风险：由于来源为 T3 级，未声明许可证，长期维护和兼容性无法保证。建议用户在使用前遵循安全检查报告的建议，要求维护者补充 LICENSE 并关联公开仓库，以提升透明度和信任度。

安全解读

核心用法

pdf-extract 是一个极简的 PDF 文本提取工具，本质上是 pdftotext（poppler-utils 包）的封装接口。用户通过命令行指定 PDF 文件路径，即可快速获取可用于 LLM 处理的纯文本内容。

基础命令：

pdf-extract "document.pdf" — 提取全部文本
pdf-extract "document.pdf" --pages 1-5 — 仅提取指定页码

显著优点

1. 极致轻量：纯 Markdown 文档实现，无代码逻辑，仅 47 行、2 个文件
2. 零依赖风险：无第三方包，仅调用系统标准工具 pdftotext
3. 完全离线：无网络请求，无数据外泄风险
4. 权限最小化：仅需 bins 权限调用系统二进制文件
5. S+ 级安全认证：六维深度扫描满分通过，零威胁发现

潜在缺点与局限性

1. 功能单一：仅支持文本提取，无法处理扫描版 PDF（需 OCR）
2. 格式丢失：提取后丢失原文档排版、表格结构、图片信息
3. 系统依赖强：必须预装 poppler-utils，跨平台兼容性受限（目前仅提供 dnf 安装指引）
4. 输入验证缺失：直接将文件路径传递给 pdftotext，存在潜在路径遍历风险
5. 来源可信度 T3：社区项目，无 GitHub 来源信息，无法验证原始仓库信誉

适合人群

需要快速将 PDF 转为纯文本喂给 LLM 的开发者
注重隐私安全、拒绝云端 API 的本地处理场景
批量处理标准文本 PDF 的自动化工作流

常规风险

路径遍历：未对用户输入的文件路径做校验，恶意构造的路径可能读取非预期文件
依赖可用性：目标系统若未安装 poppler-utils 则功能失效
编码问题：pdftotext 对某些 PDF 编码支持不佳，可能出现乱码
扫描件盲区：无法识别图片型 PDF，需配合 OCR 工具使用

docs office productivity data-analytics automation

Pdf Extract 内容

手动下载zip · 691 B

SKILL.mdtext/markdown

请选择文件