使用说明

核心用法

Smart Web Fetch 是一款专为 Agent 设计的网页内容获取工具，通过调用 Jina Reader、markdown.new、defuddle.md 等清洗服务，将原始 HTML 转换为干净的 Markdown 格式。使用时只需运行 python3 {baseDir}/scripts/fetch.py "URL" 即可获取清洗后的内容，支持 --json 参数输出包含元信息的结构化数据。

显著优点

1. Token 大幅节省: 清洗后内容比原始 HTML 减少 50-80% 的 Token 消耗，有效降低 LLM 调用成本
2. 四级降级策略: Jina → markdown.new → defuddle.md → 原始内容，确保服务高可用性
3. 零配置成本: 无需 API Key，全部使用免费服务，即插即用
4. 内容纯净: 自动去除广告、导航栏、脚本等噪音，输出可直接使用的 Markdown
5. 强制替代机制: 可通过配置 deny: ["web_fetch"] 强制 Agent 使用本技能

潜在局限

依赖第三方服务: 清洗服务均为外部依赖，存在服务不稳定或变更接口的风险
内容完整性: 部分动态渲染页面（SPA、大量 JS 内容）可能无法完整抓取
频率限制: 免费服务通常存在调用频率限制，高频场景下可能受限
格式一致性: 不同清洗服务输出格式略有差异，可能影响下游处理逻辑

适合人群

需要频繁获取网页内容的 AI Agent 开发者
对 Token 成本敏感、希望优化 LLM 上下文长度的用户
追求简洁工作流、不愿维护复杂爬虫逻辑的技术团队

常规风险

隐私泄露风险: 目标 URL 会被发送到第三方清洗服务，敏感链接不建议使用
内容篡改可能: 清洗服务可能过滤或修改部分原文内容，关键信息需二次验证
服务不可用: 若全部降级服务失效，将回退到原始 HTML，Token 消耗激增

安全解读

核心功能

Smart Web Fetch 是一款专为 Agent 设计的智能网页抓取技能，旨在完全替代内置 web_fetch 工具。其核心定位在于解决原始 HTML 抓取带来的 Token 浪费和解析负担问题——通过集成三大清洗服务（Jina Reader、markdown.new、defuddle.md），将网页内容自动转换为干净的 Markdown 格式。

显著优点

1. 极致 Token 优化：清洗后的 Markdown 去除广告、导航栏、脚本等噪音，相比原始 HTML 节省 50-80% Token，大幅降低 LLM 调用成本
2. 四级自动降级：Jina → markdown.new → defuddle.md → 原始 HTML 的容错链，确保服务高可用性
3. 零配置成本：无需申请 API Key，全部使用公开免费服务，即装即用
4. 输出格式友好：纯 Markdown 结构，无需额外 HTML 解析逻辑，Agent 可直接消费

潜在局限

SSL 安全隐患：代码中默认禁用 SSL 证书验证（ssl.CERT_NONE），存在中间人攻击风险，建议生产环境修复
外部服务依赖：核心功能依赖 3 个第三方服务，服务稳定性直接影响 skill 可用性
网络超时固定：当前 30 秒超时配置不够灵活，无重试退避机制
来源可信度：T3 级别个人开发者项目，缺乏 GitHub 仓库验证背书

适合人群

需要频繁获取网页内容的 AI Agent 开发者
关注 Token 成本优化的 LLM 应用构建者
希望快速集成网页抓取能力而无须维护清洗管道的团队

使用建议

推荐在 openclaw.json 中配置 deny: ["web_fetch"] 强制启用本技能替代内置抓取。同时建议通过环境变量 SMART_FETCH_SSL_VERIFY=false 显式控制 SSL 验证禁用，并关注后续版本修复 SSL 默认配置。

web-scraping markdown token-optimization jina-ai content-extraction agent-tool

Smart Web Fetch 内容

scripts文件夹

手动下载zip · 4.1 kB

fetch.pytext/plain

请选择文件