scraper - 多源文档智能抓取归档专家

使用说明

核心用法

docs-scraper 是一款基于 Node.js 的 CLI 工具，通过浏览器自动化技术将各类在线文档抓取并转换为本地 PDF 文件。用户可通过 npm install -g docs-scraper 全局安装后，使用 docs-scraper scrape <url> 命令快速抓取目标页面。工具采用守护进程（Daemon）架构保持浏览器实例常驻内存，显著提升连续抓取性能。针对需要认证的受保护内容（如 Notion 私有页面、DocSend 密码保护文档），支持通过 -D 参数预填认证信息或创建持久化 Profile 保存会话 Cookie，实现无缝的批量归档工作流。

显著优点

该工具的最大优势在于多源适配能力，原生支持 Direct PDF、Notion、DocSend 等主流文档平台，并配备 LLM Fallback 机制——当遇到未知页面时，自动调用 Claude API 智能分析页面结构、识别登录表单并提取动态字段。这种"规则+AI"的双层架构大幅扩展了适用场景。此外，完善的 Job 管理系统允许异步处理阻塞任务，用户可在初始抓取被拦截后，通过 Job ID 补充认证信息继续流程，无需重新加载页面。会话持久化功能通过 Profile 机制实现，避免重复登录，特别适合需要批量抓取同站点多个文档的场景。

潜在缺点与局限性

首先，该 Skill 仅为使用文档，实际执行的 docs-scraper npm 包来自社区个人开发者（T3 来源），其代码安全性、维护持续性及依赖项完整性未在审查范围内，存在供应链安全风险。其次，LLM Fallback 功能依赖 Anthropic API，需用户自行配置 API Key 并承担相应费用，且对复杂 CAPTCHA 或高级反爬机制仍需人工干预。此外，工具基于 Puppeteer/Playwright 等浏览器自动化框架，需要本地安装 Chromium 等浏览器内核，对系统资源占用较大，在低配设备或容器环境中可能存在性能瓶颈。最后，当前版本主要面向桌面端 CLI 使用，缺乏图形界面，对非技术用户存在一定门槛。

适合的目标群体

本产品特别适合知识管理从业者、投资研究人员、法律合规专员及学术工作者。对于需要系统性归档 Notion 知识库、批量下载 DocSend 投资路演材料、或保存网页版行业报告的用户，其认证流程支持和会话保持功能可大幅提升效率。开发者群体也可将其集成到自动化工作流中，实现文档的定时抓取与本地备份。不适合对数据安全性要求极高的涉密场景，或无法访问外网下载 npm 依赖的封闭环境。

使用风险

主要风险集中在依赖链安全：外部 npm 包可能包含未审计的代码或恶意依赖。建议在使用前通过 npm audit 检查漏洞，并在隔离环境中运行。认证信息（email/password）虽仅用于目标站点，但用户需警惕钓鱼链接，确保仅在可信域名（如 notion.so、docsend.com）输入凭证。文件系统方面，工具默认将 PDF 存储于 ~/.docs-scraper/output/，虽设有 1 小时自动清理机制，但在共享设备上需注意敏感文档残留风险。此外，频繁抓取可能触发目标站点的反爬机制，导致 IP 暂时封禁。

docs content-media automation productivity data-analytics

scraper 内容

手动下载zip · 3.0 kB

SKILL.mdtext/markdown

请选择文件