anycrawl

🕷️ 高性能智能网页数据采集方案

🥥87总安装量 19评分人数 26
100% 的用户推荐

基于 AnyCrawl API 的企业级网页采集工具,支持多引擎渲染与结构化数据提取,为 AI 工作流提供即用的洁净数据。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全规范,零外部依赖,无 eval/exec 等危险函数调用
  • ✅ 数据隐私保护良好,仅向用户配置的 AnyCrawl 服务发送数据,无静默收集行为
  • ✅ 输入验证与错误处理机制完善,错误信息不暴露敏感系统细节
  • ⚠️ 来源为个人开发者账号(T3 级),非官方组织维护,建议关注长期更新稳定性
  • ⚠️ 需自行配置 API Key 且完全依赖第三方网络服务,存在服务可用性与合规性风险

使用说明

AnyCrawl Skill 是一款专为 OpenClaw 设计的高性能网页数据采集工具,深度集成 AnyCrawl API,提供从单页抓取到全站爬取的完整解决方案。该技能集包含七大核心功能:anycrawl_scrape 支持使用 Cheerio、Playwright 或 Puppeteer 三种引擎对单个 URL 进行精准抓取,可输出 Markdown、HTML、文本、JSON 甚至截图等多种格式,特别适用于处理静态页面和复杂的单页应用(SPA);anycrawl_search 提供 Google 搜索集成,支持多语言、安全搜索过滤及自动结果抓取;anycrawl_crawl_start/status/results/cancel 则构建了一套完整的异步网站爬取工作流,支持深度控制、路径过滤和批量处理,满足大规模数据采集需求。

该技能的显著优势在于其灵活的引擎选择和结构化数据能力。用户可根据目标网站特性选择极速的 Cheerio 处理静态内容,或使用支持 JavaScript 渲染的 Playwright/Puppeteer 攻克动态加载页面。内置的 JSON Schema 提取功能可直接将网页内容转换为 LLM-ready 的结构化数据,极大简化了 AI 应用的数据预处理流程。此外,零外部依赖的设计确保了部署的轻量化和稳定性。

然而,该技能也存在一定局限性。首先,作为 T3 级个人开发者作品,长期维护的稳定性尚需观察;其次,功能完全依赖 AnyCrawl 第三方服务,需额外申请 API Key 并承担相应调用成本,且受限于该服务的速率限制和 24 小时任务过期策略;最后,对于完全离线环境或处理高度敏感内部数据的场景,数据需外传至 AnyCrawl 服务器的特性可能不符合安全合规要求。

此技能特别适合需要构建知识库、训练数据集的 AI 开发者,进行市场调研的数据分析师,以及需要自动化内容聚合的运维人员。使用时需注意网络稳定性对任务的影响,合理设置超时和重试机制,并严格遵守目标网站的 robots.txt 及使用条款,避免法律风险。

anycrawl 内容

手动下载zip · 6.5 kB
index.jstext/javascript
请选择文件