decodo-scraper

🕸️ 企业级网页抓取与搜索利器

🥥9总安装量 3评分人数 2
100% 的用户推荐

Decodo官方出品的网页抓取技能,通过API实现Google搜索与任意网页内容提取,输出结构化JSON或Markdown,助力数据获取与内容分析。

A

基本安全,请在特定环境下使用

  • 来自可信来源(Github / Microsoft / 官方仓库)
  • ✅ 代码无恶意行为,仅与官方 Decodo API 通信
  • ✅ 无系统命令执行、文件写入等高危操作
  • ✅ 认证令牌通过环境变量管理,无硬编码风险
  • ✅ 依赖库均为广泛使用的可信开源组件
  • ⚠️ 用户需自行保管 DECODO_AUTH_TOKEN,避免泄露

使用说明

核心用法

decodo-scraper 是一款基于 Decodo Web Scraping API 的 OpenClaw 技能,提供两大核心功能:Google 搜索与网页内容抓取。用户通过命令行工具调用 tools/scrape.py 脚本,指定 --target 参数选择操作类型——google_search 用于执行搜索查询,,universal 用于抓取指定 URL。搜索功能返回 JSON 格式的结构化结果(包含自然搜索结果、AI 概览、相关问题等),而网页抓取则输出清洗后的 Markdown 格式内容,显著降低 LLM 处理的 token 消耗。认证方面,用户需在环境变量或 .env 文件中配置 DECODO_AUTH_TOKEN,该令牌从 Decodo 控制台获取。

显著优点

该技能的最大优势在于其官方背书与可靠性。作为 Decodo(前身为 Smartproxy)官方维护的工具,它直接对接企业级网页抓取基础设施,解决了自建爬虫面临的反爬机制、IP 封禁、验证码拦截等痛点。输出格式针对 AI 场景优化——Markdown 格式比原始 HTML 更干净,JSON 搜索结果便于程序化处理。此外,技能支持地理位置(--geo)和语言(--locale)参数,满足本地化搜索需求。代码结构极简,仅依赖 requestspython-dotenv 两个主流库,部署门槛低。

潜在缺点与局限性

首先,成本门槛不可忽视:Decodo API 为付费服务,用户需自行承担调用费用,高频使用场景下成本可能累积。其次,功能相对单一,仅覆盖搜索与基础抓取,不支持复杂交互(如点击、滚动、表单提交)或 JavaScript 动态渲染页面的深度抓取。输出格式固定,无法自定义提取规则(如 CSS 选择器、XPath),灵活性逊于专业爬虫框架。此外,网络依赖性强,API 服务中断将直接导致技能失效,且当前缺乏内置重试机制,偶发请求失败需用户自行处理。

适合的目标群体

该技能特别适合以下用户:需要快速获取网络数据的 AI 应用开发者、构建 RAG 知识库的内容聚合场景、进行竞品调研或舆情监控的市场运营人员,以及不愿投入爬虫基础设施建设的中小团队。对于学术研究者,它提供了便捷的文献检索与网页存档途径。然而,需要大规模分布式抓取、复杂页面交互或零成本方案的用户,可能需要评估替代方案。

使用风险

常规风险主要包括:API 配额与费用管理——用户需监控调用量避免超额;数据合规性——抓取内容需遵守目标网站的 robots.txt 及版权法规;Token 安全——DECODO_AUTH_TOKEN 泄露可能导致账户被盗用,建议配合密钥管理服务使用;网络稳定性——跨境 API 调用可能受网络波动影响响应速度。

decodo-scraper 内容

文件夹图标tools文件夹
手动下载zip · 4.2 kB
scrape.pytext/plain
请选择文件