使用说明

核心功能

Playwright Scraper Skill 是一套分层递进的网页数据采集解决方案，针对不同程度的反爬机制提供三种策略：

1. 轻量模式：直接调用 OpenClaw 内置 web_fetch 工具，适合静态页面，速度最快
2. 动态模式：使用 playwright-simple.js 渲染 JavaScript 内容，适合 SPA 单页应用
3. 隐身模式：使用 playwright-stealth.js 绕过 Cloudflare 等高级防护，在 Discuss.com.hk 等困难站点实现 100% 成功率

显著优势

实战验证：经 Discuss.com.hk 等 Cloudflare 保护站点实测，成功率显著优于 Crawlee、Puppeteer 等方案
多层降级：清晰的决策矩阵帮助用户选择最优策略，避免过度使用重型工具
高度可配置：支持环境变量自定义截图路径、等待时间、User-Agent、是否保存 HTML 等
零恶意依赖：仅依赖 Microsoft 官方 Playwright 库，供应链风险极低

潜在局限

性能成本：隐身模式需 5-20 秒，远低于静态抓取
容器适配：使用 --no-sandbox 参数以兼容无头环境，虽属合理配置但降低了浏览器隔离强度
URL 验证不足：命令行输入的 URL 缺乏格式校验和协议限制，存在 SSRF 理论风险
维护状态：T3 级个人开发者项目，长期更新依赖社区贡献

适用人群

数据分析师、研究人员需要采集 JavaScript 动态加载的网页内容
开发者需绕过 Cloudflare、DataDome 等防护机制进行合法数据采集
已熟悉 Node.js 和 Playwright 生态的技术用户

常规风险

合规风险：反爬技术可能违反目标网站的 ToS，需自行评估法律边界
频率控制：未内置速率限制，高频请求可能导致 IP 被封禁
沙箱建议：T3 来源建议在隔离环境先行测试，再投入生产使用

安全解读

核心用法

Playwright Scraper Skill 是一套分层网页抓取解决方案，提供三种爬取策略：

1. 内置 web_fetch — 适用于静态网站，速度最快
2. Playwright Simple — 适用于JavaScript动态渲染网站
3. Playwright Stealth ⭐ — 适用于Cloudflare等反爬保护网站

使用时根据目标网站反爬等级选择对应脚本，通过命令行直接调用，支持环境变量自定义截图路径、等待时间、User-Agent等参数。

显著优点

实战验证的反爬能力：在Discuss.com.hk测试中，Stealth模式实现100%成功率，而Crawlee、Puppeteer标准模式均失败
技术方案纯粹：不依赖Crawlee等高层框架，直接使用Playwright底层API，降低被检测风险
灵活可配置：支持headful/headless模式切换、自定义等待策略、截图/HTML保存
依赖安全可靠：仅依赖Microsoft官方Playwright库，无供应链风险
分层架构合理：从简单到复杂场景都有对应方案，避免过度使用重型工具

潜在缺点与局限性

反爬伦理灰色地带：隐藏navigator.webdriver、模拟真实设备指纹等技术虽合法，但可能违反目标网站服务条款
无内置代理轮换：高频率爬取同一站点时IP易被封锁，需手动配置代理
无验证码处理：遇到CAPTCHA时需借助第三方服务（2captcha等），暂未集成
无登录状态保持：缺乏cookie管理和会话持久化功能
容器环境限制：默认使用--no-sandbox参数，存在潜在安全风险

适合人群

数据分析师、研究人员需要抓取受保护公开数据
开发者构建竞品监控、价格追踪等自动化工具
已有一定Node.js基础，能根据目标站点特性调整参数

常规风险

法律合规风险：需遵守robots.txt及目标网站ToS，某些司法管辖区对爬虫有专门立法
IP封禁风险：即使Stealth模式成功，高频请求仍可能触发速率限制
数据隐私风险：抓取内容可能含个人信息，需符合GDPR/CCPA等法规
技术对抗升级：反爬与反反爬是持续军备竞赛，当前有效技术可能随对方升级失效

web-scraping playwright browser-automation anti-bot cloudflare-bypass javascript-rendering data-extraction headless-browser

Playwright Scraper Skill 内容

examples文件夹

scripts文件夹

手动下载zip · 18.0 kB

discuss-hk.shtext/x-shellscript

请选择文件