WebFetch MD 是一款专注于网页内容提取与格式转换的实用工具,能够将任意公开网页抓取并转换为结构清晰的 Markdown 格式。
核心用法上,该工具支持多种调用方式:作为 OpenClaw 工具通过 YAML 配置调用,使用 npx 直接执行 CLI 命令,或作为 Node.js 模块集成到项目中。用户只需提供目标 URL,工具便会自动抓取网页 HTML,通过智能算法提取正文内容,并输出包含标题、Markdown 正文、图片链接数组及内容统计信息的标准 JSON 格式。
显著优点包括:采用多优先级策略智能识别正文区域(从 article/main 标签到常见内容类名),有效过滤导航栏、广告、评论区等干扰元素;自动将相对路径转换为绝对 URL,确保图片链接可用;保留原始图片并转换为标准 Markdown 格式;依赖 turndown 和 cheerio 等成熟库保证转换质量;统一的错误处理机制确保不暴露敏感信息。
潜在局限在于:作为个人开发者维护的 T3 级项目,长期维护稳定性存疑;依赖的 cheerio 仍为 1.0.0-rc.12 预发布版本;缺乏严格的 URL 格式预校验,仅依赖运行时错误捕获;无法处理需要登录认证或反爬机制严格的页面;对动态渲染的 JavaScript 单页应用支持有限。
适合的目标群体包括:需要批量归档网络文章的内容创作者、构建知识库的研究人员、进行网页内容分析的开发者,以及需要将网页资料转换为可编辑文档的办公人员。
使用风险主要涉及:频繁抓取可能触发目标网站的反爬机制导致 IP 被封;抓取受版权保护内容存在法律合规风险;网络请求可能暴露用户 IP 地址;预发布版依赖可能存在未发现的稳定性问题;建议仅用于公开可访问的网页,避免处理敏感或需认证的页面。