核心用法
web-content-fetcher 是一款专为反爬虫受限场景设计的网页内容获取工具。当常规 web_fetch 因 robots.txt、IP 封禁或 Cloudflare 验证失败时,通过调用第三方解析服务获取网页的 Markdown 格式内容。
三大服务优先级策略:
- r.jina.ai(首选):通用性最强,稳定性最高,覆盖 95% 以上场景
- markdown.new(次选):专为 Cloudflare 防护网站优化,绕过 5 秒盾验证
- defuddle.md(备用):兜底方案,处理前两者的边缘失败案例
显著优点
1. 零配置绕过能力:无需代理池、浏览器模拟或验证码破解,直接调用现成服务
2. Markdown 原生输出:自动将 HTML 转换为结构化 Markdown,省去清洗成本
3. 渐进式降级:三级服务自动 failover,提升成功率和鲁棒性
4. 轻量化调用:支持 shell 脚本、curl 或 API 调用,集成成本极低
潜在缺点与局限性
| 问题 | 说明 |
|------|------|
| **第三方依赖风险** | 服务可用性、速率限制、政策变更不受控,存在单点故障 |
| **隐私泄露隐患** | 目标 URL 会上传至外部服务商,敏感/内部链接不宜使用 |
| **内容完整性损失** | 动态渲染内容(SPA、懒加载)、登录态页面可能抓取不全 |
| **法律灰色地带** | 绕过 Cloudflare 等商业防护可能违反目标网站 ToS |
| **延迟不可控** | 依赖外部服务响应时间,无法保障 SLA |
适合人群
- AI 开发者:构建 RAG 系统时需要批量获取网页语料
- 内容聚合者:制作 newsletter、知识库、 price monitor
- 研究人员:抓取论文、新闻、文档进行文本分析
- 绕过受阻场景:常规爬虫被 403/Challenge 拦截时的应急方案
常规风险
- 合规风险:需自行评估目标网站的 robots.txt 和 ToS 条款
- 数据安全风险:避免提交含 token、session、内网地址的 URL
- 服务中断风险:建议本地缓存结果,避免运行时依赖第三方
- 质量风险:输出 Markdown 可能存在格式错乱,需后校验