Scrapling

🕷️ 智能反爬网页抓取与全站采集

automation榜 #12

基于 Scrapling 的现代自适应网页抓取框架,支持反爬虫绕过、浏览器自动化、智能选择器修复及全站爬取,适合研究数据采集与品牌信息提取。

收藏
10.3k
安装
3.3k
版本
1.0.8
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Scrapling 提供三层抓取能力满足不同场景:

基础抓取 (Fetcher.get):纯 HTTP 请求,适用于静态页面,支持 CSS/XPath/BeautifulSoup 三种选择器语法。

隐蔽抓取 (StealthyFetcher):模拟真实浏览器指纹,集成 cloudscraper 可绕过 Cloudflare 等反爬机制,适合被防护的站点。

动态抓取 (DynamicFetcher):基于 Playwright 的完整浏览器自动化,支持 JavaScript 渲染、网络空闲等待、点击交互等。

智能解析 (adaptive=True):首次抓取时自动保存选择器,页面结构变化后仍可自动重新定位元素,显著降低维护成本。

Spider 框架:异步并发爬虫,支持 start_urls、自动链接跟随、会话管理(可为不同请求指定 fast/stealth 等不同会话)。

CLI 工具scrapling extractscrapling shell 支持命令行快速提取和交互式调试。

显著优点

  • 选择器自适应:设计变更后无需重写爬虫,大幅降低维护负担
  • 多层反爬:指纹伪装、TLS 指纹模拟、Cloudflare 专用绕过方案
  • Firecrawl 式全站爬取:支持 sitemap 发现 + 链接跟随双模式,可配置 use_sitemap 参数
  • API 逆向工程:提供完整方法论,从 DevTools 发现端点到复现 Token 生成逻辑
  • 会话隔离FetcherSession 管理 cookies、headers、代理,支持代理轮换
  • 轻量依赖:核心库仅依赖 httpxlxml 等,按需安装浏览器组件

潜在局限

  • 验证码无法绕过:明确声明不支持 Captcha,需人工处理或官方 API
  • 登录保护站点:需用户提供凭据,不鼓励绕过身份验证
  • 动态站点成本:Playwright 模式内存占用高、速度慢于纯 HTTP
  • TOS 风险:未内置 robots.txt 强制遵守,需用户自行判断合法性
  • 自适应非万能:极端重构(如 SPA 改 SSR)仍可能失效

适合人群

  • 市场/竞品研究人员:提取品牌数据、价格监控、内容聚合
  • 数据记者:快速采集新闻站点、政府公开数据
  • 开发者:构建数据集、训练数据准备、SEO 分析
  • 逆向工程师:发现隐藏 API、复现前端加密逻辑

常规风险

| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| 法律合规 | 可能违反目标网站 TOS | 遵守 robots.txt,限制请求频率,仅采集公开数据 |
| IP 封禁 | 高频请求触发 rate limit | 使用代理轮换、指数退避、StealthyFetcher |
| 数据质量 | 动态渲染失败导致空值 | 校验 status code,启用 `network_idle` 等待 |
| 维护成本 | 站点改版后选择器失效 | 启用 `adaptive=True`,建立监控告警 |
| 依赖风险 | cloudscraper/playwright 更新滞后 | 锁定版本,关注上游安全公告 |

Scrapling 内容

手动下载zip · 9.6 kB
run.shtext/x-shellscript
请选择文件