使用说明

AnyCrawl Skill 是一款专为 OpenClaw 设计的高性能网页数据采集工具，深度集成 AnyCrawl API，提供从单页抓取到全站爬取的完整解决方案。该技能集包含七大核心功能：anycrawl_scrape 支持使用 Cheerio、Playwright 或 Puppeteer 三种引擎对单个 URL 进行精准抓取，可输出 Markdown、HTML、文本、JSON 甚至截图等多种格式，特别适用于处理静态页面和复杂的单页应用（SPA）；anycrawl_search 提供 Google 搜索集成，支持多语言、安全搜索过滤及自动结果抓取；anycrawl_crawl_start/status/results/cancel 则构建了一套完整的异步网站爬取工作流，支持深度控制、路径过滤和批量处理，满足大规模数据采集需求。

该技能的显著优势在于其灵活的引擎选择和结构化数据能力。用户可根据目标网站特性选择极速的 Cheerio 处理静态内容，或使用支持 JavaScript 渲染的 Playwright/Puppeteer 攻克动态加载页面。内置的 JSON Schema 提取功能可直接将网页内容转换为 LLM-ready 的结构化数据，极大简化了 AI 应用的数据预处理流程。此外，零外部依赖的设计确保了部署的轻量化和稳定性。

然而，该技能也存在一定局限性。首先，作为 T3 级个人开发者作品，长期维护的稳定性尚需观察；其次，功能完全依赖 AnyCrawl 第三方服务，需额外申请 API Key 并承担相应调用成本，且受限于该服务的速率限制和 24 小时任务过期策略；最后，对于完全离线环境或处理高度敏感内部数据的场景，数据需外传至 AnyCrawl 服务器的特性可能不符合安全合规要求。

此技能特别适合需要构建知识库、训练数据集的 AI 开发者，进行市场调研的数据分析师，以及需要自动化内容聚合的运维人员。使用时需注意网络稳定性对任务的影响，合理设置超时和重试机制，并严格遵守目标网站的 robots.txt 及使用条款，避免法律风险。

content-media data-analytics api automation development-engineering

anycrawl 内容

手动下载zip · 6.5 kB

index.jstext/javascript

请选择文件