核心功能
Playwright Scraper Skill 是一套分层递进的网页数据采集解决方案,针对不同程度的反爬机制提供三种策略:
1. 轻量模式:直接调用 OpenClaw 内置 web_fetch 工具,适合静态页面,速度最快
2. 动态模式:使用 playwright-simple.js 渲染 JavaScript 内容,适合 SPA 单页应用
3. 隐身模式:使用 playwright-stealth.js 绕过 Cloudflare 等高级防护,在 Discuss.com.hk 等困难站点实现 100% 成功率
显著优势
- 实战验证:经 Discuss.com.hk 等 Cloudflare 保护站点实测,成功率显著优于 Crawlee、Puppeteer 等方案
- 多层降级:清晰的决策矩阵帮助用户选择最优策略,避免过度使用重型工具
- 高度可配置:支持环境变量自定义截图路径、等待时间、User-Agent、是否保存 HTML 等
- 零恶意依赖:仅依赖 Microsoft 官方 Playwright 库,供应链风险极低
潜在局限
- 性能成本:隐身模式需 5-20 秒,远低于静态抓取
- 容器适配:使用
--no-sandbox参数以兼容无头环境,虽属合理配置但降低了浏览器隔离强度 - URL 验证不足:命令行输入的 URL 缺乏格式校验和协议限制,存在 SSRF 理论风险
- 维护状态:T3 级个人开发者项目,长期更新依赖社区贡献
适用人群
- 数据分析师、研究人员需要采集 JavaScript 动态加载的网页内容
- 开发者需绕过 Cloudflare、DataDome 等防护机制进行合法数据采集
- 已熟悉 Node.js 和 Playwright 生态的技术用户
常规风险
- 合规风险:反爬技术可能违反目标网站的 ToS,需自行评估法律边界
- 频率控制:未内置速率限制,高频请求可能导致 IP 被封禁
- 沙箱建议:T3 来源建议在隔离环境先行测试,再投入生产使用