scraper

📄 多源文档智能抓取归档专家

🥥38总安装量 18评分人数 14
100% 的用户推荐

基于浏览器自动化的开源文档抓取方案,支持 Notion、DocSend 等受保护内容的认证导出,实现网页到 PDF 的高效本地归档与知识管理。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 纯文档型资产,无内置可执行代码,未检出 eval/exec/system 等危险函数
  • ⚠️ 依赖外部 npm 包 `docs-scraper`,其安全性与依赖链未在当前审查范围内,需用户自行审计
  • ⚠️ LLM Fallback 功能需配置 ANTHROPIC_API_KEY 环境变量,存在 API 密钥泄露风险
  • ⚠️ 工具会操作用户本地文件系统(下载 PDF 至 `~/.docs-scraper/output/`),需注意存储路径权限管理
  • ✅ 无静默数据收集行为,认证信息仅用于目标站点认证流程

使用说明

核心用法

docs-scraper 是一款基于 Node.js 的 CLI 工具,通过浏览器自动化技术将各类在线文档抓取并转换为本地 PDF 文件。用户可通过 npm install -g docs-scraper 全局安装后,使用 docs-scraper scrape <url> 命令快速抓取目标页面。工具采用守护进程(Daemon)架构保持浏览器实例常驻内存,显著提升连续抓取性能。针对需要认证的受保护内容(如 Notion 私有页面、DocSend 密码保护文档),支持通过 -D 参数预填认证信息或创建持久化 Profile 保存会话 Cookie,实现无缝的批量归档工作流。

显著优点

该工具的最大优势在于多源适配能力,原生支持 Direct PDF、Notion、DocSend 等主流文档平台,并配备 LLM Fallback 机制——当遇到未知页面时,自动调用 Claude API 智能分析页面结构、识别登录表单并提取动态字段。这种"规则+AI"的双层架构大幅扩展了适用场景。此外,完善的 Job 管理系统允许异步处理阻塞任务,用户可在初始抓取被拦截后,通过 Job ID 补充认证信息继续流程,无需重新加载页面。会话持久化功能通过 Profile 机制实现,避免重复登录,特别适合需要批量抓取同站点多个文档的场景。

潜在缺点与局限性

首先,该 Skill 仅为使用文档,实际执行的 docs-scraper npm 包来自社区个人开发者(T3 来源),其代码安全性、维护持续性及依赖项完整性未在审查范围内,存在供应链安全风险。其次,LLM Fallback 功能依赖 Anthropic API,需用户自行配置 API Key 并承担相应费用,且对复杂 CAPTCHA 或高级反爬机制仍需人工干预。此外,工具基于 Puppeteer/Playwright 等浏览器自动化框架,需要本地安装 Chromium 等浏览器内核,对系统资源占用较大,在低配设备或容器环境中可能存在性能瓶颈。最后,当前版本主要面向桌面端 CLI 使用,缺乏图形界面,对非技术用户存在一定门槛。

适合的目标群体

本产品特别适合知识管理从业者、投资研究人员、法律合规专员及学术工作者。对于需要系统性归档 Notion 知识库、批量下载 DocSend 投资路演材料、或保存网页版行业报告的用户,其认证流程支持和会话保持功能可大幅提升效率。开发者群体也可将其集成到自动化工作流中,实现文档的定时抓取与本地备份。不适合对数据安全性要求极高的涉密场景,或无法访问外网下载 npm 依赖的封闭环境。

使用风险

主要风险集中在依赖链安全:外部 npm 包可能包含未审计的代码或恶意依赖。建议在使用前通过 npm audit 检查漏洞,并在隔离环境中运行。认证信息(email/password)虽仅用于目标站点,但用户需警惕钓鱼链接,确保仅在可信域名(如 notion.so、docsend.com)输入凭证。文件系统方面,工具默认将 PDF 存储于 ~/.docs-scraper/output/,虽设有 1 小时自动清理机制,但在共享设备上需注意敏感文档残留风险。此外,频繁抓取可能触发目标站点的反爬机制,导致 IP 暂时封禁。

scraper 内容

手动下载zip · 3.0 kB
SKILL.mdtext/markdown
请选择文件