decodo-scraper - 企业级网页抓取与搜索利器

使用说明

核心用法

decodo-scraper 是一款基于 Decodo Web Scraping API 的 OpenClaw 技能，提供两大核心功能：Google 搜索与网页内容抓取。用户通过命令行工具调用 tools/scrape.py 脚本，指定 --target 参数选择操作类型——google_search 用于执行搜索查询，，universal 用于抓取指定 URL。搜索功能返回 JSON 格式的结构化结果（包含自然搜索结果、AI 概览、相关问题等），而网页抓取则输出清洗后的 Markdown 格式内容，显著降低 LLM 处理的 token 消耗。认证方面，用户需在环境变量或 .env 文件中配置 DECODO_AUTH_TOKEN，该令牌从 Decodo 控制台获取。

显著优点

该技能的最大优势在于其官方背书与可靠性。作为 Decodo（前身为 Smartproxy）官方维护的工具，它直接对接企业级网页抓取基础设施，解决了自建爬虫面临的反爬机制、IP 封禁、验证码拦截等痛点。输出格式针对 AI 场景优化——Markdown 格式比原始 HTML 更干净，JSON 搜索结果便于程序化处理。此外，技能支持地理位置（--geo）和语言（--locale）参数，满足本地化搜索需求。代码结构极简，仅依赖 requests 和 python-dotenv 两个主流库，部署门槛低。

潜在缺点与局限性

首先，成本门槛不可忽视：Decodo API 为付费服务，用户需自行承担调用费用，高频使用场景下成本可能累积。其次，功能相对单一，仅覆盖搜索与基础抓取，不支持复杂交互（如点击、滚动、表单提交）或 JavaScript 动态渲染页面的深度抓取。输出格式固定，无法自定义提取规则（如 CSS 选择器、XPath），灵活性逊于专业爬虫框架。此外，网络依赖性强，API 服务中断将直接导致技能失效，且当前缺乏内置重试机制，偶发请求失败需用户自行处理。

适合的目标群体

该技能特别适合以下用户：需要快速获取网络数据的 AI 应用开发者、构建 RAG 知识库的内容聚合场景、进行竞品调研或舆情监控的市场运营人员，以及不愿投入爬虫基础设施建设的中小团队。对于学术研究者，它提供了便捷的文献检索与网页存档途径。然而，需要大规模分布式抓取、复杂页面交互或零成本方案的用户，可能需要评估替代方案。

使用风险

常规风险主要包括：API 配额与费用管理——用户需监控调用量避免超额；数据合规性——抓取内容需遵守目标网站的 robots.txt 及版权法规；Token 安全——DECODO_AUTH_TOKEN 泄露可能导致账户被盗用，建议配合密钥管理服务使用；网络稳定性——跨境 API 调用可能受网络波动影响响应速度。

content-media data-analytics api automation productivity

decodo-scraper 内容

tools文件夹

手动下载zip · 4.2 kB

scrape.pytext/plain

请选择文件