webfetch-md

🌐 一键抓取网页存为Markdown

下载技能Zip包

44 次

🥥44

总安装量 12

评分人数 15

100% 的用户推荐

基于Node.js的网页抓取工具，智能提取正文并转为Markdown，保留图片链接，过滤广告导航，适合内容归档。

基本安全，请在特定环境下使用

来自社区或个人来源，建议先隔离验证
✅ 代码安全规范，无 eval/exec/system 等危险函数，无 SQL 注入或 XSS 漏洞
✅ 数据隐私合规，仅抓取用户指定 URL 的公开内容，不收集密码、API Key 等敏感信息
⚠️ T3 社区/个人来源，虽代码完全透明可审计，但建议审查后使用
⚠️ URL 输入缺乏严格格式校验（如协议检查），仅依赖运行时错误捕获
⚠️ 依赖 cheerio 预发布版本(1.0.0-rc.12)，建议关注正式版更新

了解 BSS 安全性认证标准 >zip · 9.6 kB

使用说明

WebFetch MD 是一款专注于网页内容提取与格式转换的实用工具，能够将任意公开网页抓取并转换为结构清晰的 Markdown 格式。

核心用法上，该工具支持多种调用方式：作为 OpenClaw 工具通过 YAML 配置调用，使用 npx 直接执行 CLI 命令，或作为 Node.js 模块集成到项目中。用户只需提供目标 URL，工具便会自动抓取网页 HTML，通过智能算法提取正文内容，并输出包含标题、Markdown 正文、图片链接数组及内容统计信息的标准 JSON 格式。

显著优点包括：采用多优先级策略智能识别正文区域（从 article/main 标签到常见内容类名），有效过滤导航栏、广告、评论区等干扰元素；自动将相对路径转换为绝对 URL，确保图片链接可用；保留原始图片并转换为标准 Markdown 格式；依赖 turndown 和 cheerio 等成熟库保证转换质量；统一的错误处理机制确保不暴露敏感信息。

潜在局限在于：作为个人开发者维护的 T3 级项目，长期维护稳定性存疑；依赖的 cheerio 仍为 1.0.0-rc.12 预发布版本；缺乏严格的 URL 格式预校验，仅依赖运行时错误捕获；无法处理需要登录认证或反爬机制严格的页面；对动态渲染的 JavaScript 单页应用支持有限。

适合的目标群体包括：需要批量归档网络文章的内容创作者、构建知识库的研究人员、进行网页内容分析的开发者，以及需要将网页资料转换为可编辑文档的办公人员。

使用风险主要涉及：频繁抓取可能触发目标网站的反爬机制导致 IP 被封；抓取受版权保护内容存在法律合规风险；网络请求可能暴露用户 IP 地址；预发布版依赖可能存在未发现的稳定性问题；建议仅用于公开可访问的网页，避免处理敏感或需认证的页面。

content-media docs productivity automation development-engineering

webfetch-md 内容

手动下载zip · 9.6 kB

cli.jstext/javascript

请选择文件