skills/d4vinci/Scrapling Official Skill

Scrapling Official Skill

🕷️ 自适应反爬虫抓取框架

web-data-extraction榜 #1

官方 Web 抓取框架，内置 Cloudflare 反爬虫绕过、自适应元素定位、并发爬虫架构，支持 CLI 与 Python API 双模式

收藏

26.9k

安装

8.9k

版本

0.4.5

CLS 安全扫描中

预计需要 3 分钟...

使用说明

核心用法

Scrapling 是专为现代反爬虫环境设计的 Python 抓取框架，提供三层递进式抓取策略：

1. 命令行快速抓取（零代码）

scrapling extract get：基础 HTTP 请求，适合静态站点
scrapling extract fetch：浏览器自动化，支持 JS 渲染与网络空闲等待
scrapling extract stealthy-fetch：最高级隐身模式，内置 Cloudflare Turnstile 自动破解

2. Python API 编程

Fetcher/FetcherSession：HTTP 会话管理，支持 TLS 指纹模拟
StealthyFetcher/StealthySession：隐身浏览器，自动处理 WebGL/Canvas/WebRTC 指纹
DynamicFetcher/DynamicSession：完整浏览器自动化，支持 XHR 捕获
Spider 框架：Scrapy 风格的多会话并发爬虫，支持断点续爬与开发模式缓存

3. 自适应解析

统一 Selector API 融合 CSS/XPath/BeautifulSoup 语法
智能元素重定位：页面结构变化时自动追踪目标元素
元素关系导航：parent/sibling/below/find_similar 等链式操作

显著优点

开箱即用的反爬虫：无需第三方服务或 API 密钥，纯自动化技术绕过 Cloudflare
三档递进策略：从极速 HTTP 到隐身浏览器，根据站点防护自动选型
生产级爬虫架构：内置并发控制、代理轮换、robots.txt 遵守、断点续爬
AI 友好输出：--ai-targeted 参数自动提取主内容并清理隐藏元素
开发效率：development_mode 缓存响应，迭代调试零网络请求

潜在缺点与局限

Python 3.10+ 硬性依赖：旧环境无法运行
浏览器依赖体积大：首次安装需下载 Chromium/Firefox 二进制（约 150MB+）
Cloudflare 破解非万能：极端行为检测仍可能触发拦截
法律边界敏感：内置强大绕过能力，误用风险高于普通抓取工具
Docker 模式功能受限：仅 CLI 可用，无法编写 Python 代码

适合人群

数据工程师：需要从受保护站点提取结构化数据
安全研究员：合法的渗透测试与漏洞赏金场景
内容聚合开发者：构建需要 JS 渲染的爬虫管道
替代 BeautifulSoup/Scrapy 用户：寻求更现代的反爬虫原生支持

常规风险

服务条款冲突：即使技术可行，批量抓取仍可能违反网站 ToS
IP 封禁：未配合代理轮换时，高频请求易触发黑名单
法律合规：抓取个人数据、版权内容、绕过付费墙存在明确法律风险
提示注入防护：CLI 使用时必须添加 --ai-targeted 防止恶意页面注入指令

web-scraping anti-bot cloudflare-bypass headless-browser spider-framework xpath css-selectors python crawler data-extraction

Scrapling Official Skill 内容

examples文件夹

references文件夹

fetching文件夹

parsing文件夹

spiders文件夹

手动下载zip · 74.5 kB

01_fetcher_session.pytext/plain

请选择文件