使用说明

AnyCrawl 是一个专为 AI 工作流设计的网页数据抓取与爬取 API，集成于 OpenClaw 网关，提供从单页抓取到全站爬取的完整解决方案。

核心用法

该技能包含七大功能模块：

anycrawl_scrape: 单页抓取核心，支持三种引擎选择。cheerio 适用于静态 HTML 极速解析；playwright 和 puppeteer 用于渲染 JavaScript 动态内容如 SPA 单页应用。输出格式灵活，支持 markdown、HTML、纯文本、JSON 结构化数据及截图。
anycrawl_search: 基于 Google 的搜索接口，支持多语言、分页、安全搜索过滤，并可配置自动抓取搜索结果详情页。
anycrawl_crawl_start/status/results/cancel: 完整的异步网站爬取工作流，支持深度控制、路径包含/排除规则、同源策略配置，适合构建知识库或训练数据集。
anycrawl_search_and_scrape: 搜索+抓取的组合快捷操作，一步获取研究素材。

显著优点

1. 引擎策略灵活：明确区分静态与动态渲染场景，避免资源浪费
2. LLM 原生设计：直接输出 markdown 和结构化 JSON，省去清洗环节
3. 异步爬取架构：大站爬取不阻塞，支持任务状态监控和取消
4. 精细化路径控制：include_paths/exclude_paths/scrape_paths 三级过滤，精准捕获目标内容
5. 多语言搜索支持：内置本地化搜索参数，适合跨境信息搜集

潜在缺点与局限性

商业依赖：需付费 API 密钥，存在 402 支付失败风险
爬取深度与成本权衡：max_depth 和 limit 配置不当易导致积分快速消耗
24 小时任务过期：长周期爬取需及时获取结果
反爬机制对抗有限：未明确提及 IP 轮换、验证码破解等高级反爬能力
引擎选择门槛：新手可能误判页面动态性，选错引擎导致数据缺失

适合人群

AI 应用开发者：需要为 RAG 系统、智能客服、研究助手提供实时网页数据源
数据分析师：进行竞品监控、价格追踪、舆情收集
内容聚合平台：自动化构建行业知识库
学术研究者：快速获取多语言文献和网络资源

常规风险

合规风险：大规模爬取可能违反目标网站的 robots.txt 或服务条款
数据质量波动：动态网站结构变更会导致抓取规则失效
API 稳定性依赖：服务商故障将直接影响下游 AI 应用
隐私敏感：抓取用户生成内容时需考虑 GDPR 等数据保护法规
成本控制：异步爬取任务的积分消耗需密切监控，避免预算超支

web-scraping data-extraction api-integration async-crawling google-search headless-browser markdown-conversion json-extraction multi-threading

AnyCrawl-API 内容

暂无文件树

手动下载zip · 5.5 kB

contentapplication/octet-stream

请选择文件