使用说明

核心用法

deep-scraper 是一款面向工程场景的深网抓取工具，采用 Docker 容器化部署，内置 Crawlee（基于 Playwright）浏览器自动化引擎。用户将 skills/deep-scraper 目录复制到项目后，通过 docker build -t clawd-crawlee skills/deep-scraper/ 构建镜像，随后以 CLI 形式调用：docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL]。输出为标准 JSON 格式，包含状态码（SUCCESS/PARTIAL/ERROR）、内容类型（TRANSCRIPT/DESCRIPTION/GENERIC）及核心数据字段。

显著优点

1. 穿透能力强：Playwright 引擎可模拟真实浏览器行为，有效应对 YouTube、X/Twitter 等平台的反爬机制与动态渲染
2. 部署标准化：Docker 容器封装所有依赖，实现跨环境一致运行，避免"本地能跑"的维护噩梦
3. 输出 LLM-ready：自动过滤广告与噪音，直接输出纯净文本/字幕数据，省去二次清洗成本
4. 架构解耦：标准输入输出接口便于集成到自动化流水线或 AI Agent 工作流

潜在局限

资源开销：每次抓取需启动容器，冷启动延迟与内存占用高于纯 HTTP 请求方案
运维复杂度：依赖本地 Docker 环境，Windows/macOS 需额外配置，不适合无服务器边缘部署
法律灰区：虽然明令禁止爬取密码保护内容，但对 ToS 限制的公开数据抓取仍存在平台封禁与合规风险
维护负担：目标网站前端变更可能导致选择器失效，需持续跟进适配

适合人群

需要批量提取 YouTube 字幕/描述进行内容分析的 AI 开发者
构建社交媒体监听系统的数据工程团队
已有 Docker 基础设施、追求抓取稳定性的中高级技术用户

常规风险

| 风险类别 | 具体表现 | 缓释建议 |

|---------|---------|---------|

| 账号/IP 封禁 | 高频请求触发平台风控 | 配置代理池、请求节流、人机行为模拟 |

| 数据合规 | 违反网站 ToS 或服务条款 | 明确抓取范围、保留 robots.txt 尊重记录 |

| 供应链安全 | 第三方镜像或 Node 依赖含恶意代码 | 锁定基础镜像版本、审计 Dockerfile 指令 |

| 敏感信息泄露 | 误抓用户隐私数据 | 严格执行内置隐私规则、输出数据脱敏审计 |

web-scraping docker playwright crawlee youtube data-extraction automation browser-automation containerized

Deep Scraper 内容

assets文件夹

手动下载zip · 4.7 kB

main_handler.jstext/javascript

请选择文件