pdf-text-extractor

📄 零依赖 PDF 文本提取专家

基于 Mozilla PDF.js 的零依赖 PDF 文本提取工具,支持批量处理与多格式输出,适合文档数字化与内容分析场景。

收藏
1.5k
安装
745
版本
v1.0.0
CLS 安全性认证2026-05-10
点击查看完整报告 >

使用说明

核心用法

PDF-Text-Extractor 是一款专注于 PDF 文本提取的实用工具,提供单文件提取(extractText)和批量处理(extractBatch)两种核心模式。用户可通过 options 参数灵活控制输出格式(text/json/markdown/html)、是否启用 OCR、语言设置及格式保留等选项。工具还内置字数统计(countWords)和语言检测(detectLanguage)辅助功能,满足文档分析的基础需求。

显著优点

零依赖架构是最大亮点——仅依赖 Node.js 内置模块和 Mozilla 官方 PDF.js 库,无需额外安装系统级工具,部署极为轻量。文本提取速度优异(10 页 PDF 约 100ms),且对文本型 PDF 可达 100% 准确率。批量处理支持并发控制和进度追踪,配合完善的错误处理机制,适合自动化文档工作流。多语言 OCR 支持(英/西/法/德)和多种输出格式,覆盖从简单文本获取到结构化数据处理的多元场景。

潜在缺点与局限性

功能声明与实现存在落差:文档宣称的 OCR 功能(基于 Tesseract.js)在实际代码中并未找到对应实现,用户若依赖此功能将遭遇预期落空。路径遍历防护缺失,直接透传用户输入的 pdfPathfs.readFileSync,安全风险需由调用方兜底。OCR 性能开销显著(单页 1-3 秒),且准确率受扫描质量制约(85-95%)。此外,表格提取、手写识别、PDF 表单字段提取等进阶功能尚处 Roadmap 阶段,当前版本能力边界较为基础。

适合的目标群体

  • 文档数字化团队:需将纸质档案、发票、合同批量转为可检索文本
  • 内容运营与分析师:从 PDF 报告中提取数据供 LLM 处理或 BI 分析
  • 开发者与自动化工程师:构建文档处理流水线,集成至现有工作流
  • 小型企业/个人用户:轻量级、免配置的 PDF 文本获取方案

使用风险

1. 路径遍历风险:若调用方未对 pdfPath 做白名单校验,可能导致越权文件读取
2. OCR 功能缺失:依赖 OCR 的场景需先行验证实际可用性

3. 大文件内存压力:OCR 处理时峰值内存可达 50-100MB,批量任务需控制并发

4. 来源可信度存疑:作者与仓库信息不一致,建议从可信渠道获取并校验代码完整性

安全解读

核心用法

PDF-Text-Extractor 是一款专注于 PDF 文本提取的实用工具,提供双模式提取能力:对于文本型 PDF 直接解析文本层,对于扫描件则调用 Tesseract.js 进行 OCR 识别。核心功能围绕 extractText(单文件提取)、extractBatch(批量处理)、countWords(字数统计)和 detectLanguage(语言检测)四大函数展开。

使用流程简洁:通过 clawhub install 安装后,调用 extractText 并传入 pdfPath 与配置选项即可完成提取。关键配置项包括 outputFormat(text/json/markdown/html)、ocr(是否启用 OCR)、language(OCR 语言,支持英/西/法/德四种)以及 ocrQuality(质量/速度权衡)。批量处理场景下,extractBatch 支持并发控制与错误重试,适合文档工作流自动化。

显著优点

1. 零依赖架构:除 pdfjs-dist(Mozilla 官方)与 Tesseract.js 外无外部依赖,部署简单,避免依赖地狱
2. 双模式智能切换:自动检测 PDF 类型,文本型直接提取(100ms 级响应),扫描件启用 OCR(1-3s/页),兼顾速度与覆盖度

3. 输出格式丰富:除纯文本外支持 JSON(带元数据)、Markdown(保留结构)、HTML(保留链接),满足不同下游处理需求

4. 多语言 OCR:内置四国语言支持,覆盖主要商务场景

5. 安全设计:仅读取用户指定路径,无网络通信,无危险函数调用

潜在局限

1. OCR 准确率天花板:扫描件识别准确率 85-95%,依赖原图质量(建议 300 DPI+),手写体暂不支持
2. 内存消耗:OCR 峰值内存 50-100MB,超大文件可能触发内存压力

3. 路径安全风险:当前版本未严格校验用户输入路径,存在路径遍历隐患(需用户自行确保输入安全)

4. 维护不确定性:T3 级别个人开发者项目,长期更新与漏洞修复依赖作者个人精力

5. 功能边界:表格提取、PDF 表单字段提取等高级功能尚处 roadmap 阶段

适合人群

  • 文档数字化需求者:需要将纸质档案、发票、合同转为可编辑文本
  • 内容分析师:提取 PDF 内容供 LLM 处理或数据分析
  • 自动化工作流开发者:构建批量文档处理 pipeline
  • 隐私敏感用户:零网络通信,本地完成全部处理

常规风险

  • 路径遍历:恶意构造的 pdfPath 参数可能读取非预期文件,建议在受控环境使用或配合路径白名单
  • 供应链风险:pdfjs-dist 虽来自 Mozilla,仍需关注其安全公告
  • OCR 误识:关键业务场景建议人工复核 OCR 结果
  • 大文件 DOS:未限制文件大小,超大 PDF 可能导致内存溢出

pdf-text-extractor 内容

手动下载zip · 17.2 kB
config.jsonapplication/json
请选择文件