核心用法
Smart Web Fetch 是一款专为 Agent 设计的网页内容获取工具,通过调用 Jina Reader、markdown.new、defuddle.md 等清洗服务,将原始 HTML 转换为干净的 Markdown 格式。使用时只需运行 python3 {baseDir}/scripts/fetch.py "URL" 即可获取清洗后的内容,支持 --json 参数输出包含元信息的结构化数据。
显著优点
1. Token 大幅节省: 清洗后内容比原始 HTML 减少 50-80% 的 Token 消耗,有效降低 LLM 调用成本
2. 四级降级策略: Jina → markdown.new → defuddle.md → 原始内容,确保服务高可用性
3. 零配置成本: 无需 API Key,全部使用免费服务,即插即用
4. 内容纯净: 自动去除广告、导航栏、脚本等噪音,输出可直接使用的 Markdown
5. 强制替代机制: 可通过配置 deny: ["web_fetch"] 强制 Agent 使用本技能
潜在局限
- 依赖第三方服务: 清洗服务均为外部依赖,存在服务不稳定或变更接口的风险
- 内容完整性: 部分动态渲染页面(SPA、大量 JS 内容)可能无法完整抓取
- 频率限制: 免费服务通常存在调用频率限制,高频场景下可能受限
- 格式一致性: 不同清洗服务输出格式略有差异,可能影响下游处理逻辑
适合人群
- 需要频繁获取网页内容的 AI Agent 开发者
- 对 Token 成本敏感、希望优化 LLM 上下文长度的用户
- 追求简洁工作流、不愿维护复杂爬虫逻辑的技术团队
常规风险
- 隐私泄露风险: 目标 URL 会被发送到第三方清洗服务,敏感链接不建议使用
- 内容篡改可能: 清洗服务可能过滤或修改部分原文内容,关键信息需二次验证
- 服务不可用: 若全部降级服务失效,将回退到原始 HTML,Token 消耗激增