webfetch-md

🌐 一键抓取网页存为Markdown

🥥44总安装量 12评分人数 15
100% 的用户推荐

基于Node.js的网页抓取工具,智能提取正文并转为Markdown,保留图片链接,过滤广告导航,适合内容归档。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全规范,无 eval/exec/system 等危险函数,无 SQL 注入或 XSS 漏洞
  • ✅ 数据隐私合规,仅抓取用户指定 URL 的公开内容,不收集密码、API Key 等敏感信息
  • ⚠️ T3 社区/个人来源,虽代码完全透明可审计,但建议审查后使用
  • ⚠️ URL 输入缺乏严格格式校验(如协议检查),仅依赖运行时错误捕获
  • ⚠️ 依赖 cheerio 预发布版本(1.0.0-rc.12),建议关注正式版更新

使用说明

WebFetch MD 是一款专注于网页内容提取与格式转换的实用工具,能够将任意公开网页抓取并转换为结构清晰的 Markdown 格式。

核心用法上,该工具支持多种调用方式:作为 OpenClaw 工具通过 YAML 配置调用,使用 npx 直接执行 CLI 命令,或作为 Node.js 模块集成到项目中。用户只需提供目标 URL,工具便会自动抓取网页 HTML,通过智能算法提取正文内容,并输出包含标题、Markdown 正文、图片链接数组及内容统计信息的标准 JSON 格式。

显著优点包括:采用多优先级策略智能识别正文区域(从 article/main 标签到常见内容类名),有效过滤导航栏、广告、评论区等干扰元素;自动将相对路径转换为绝对 URL,确保图片链接可用;保留原始图片并转换为标准 Markdown 格式;依赖 turndown 和 cheerio 等成熟库保证转换质量;统一的错误处理机制确保不暴露敏感信息。

潜在局限在于:作为个人开发者维护的 T3 级项目,长期维护稳定性存疑;依赖的 cheerio 仍为 1.0.0-rc.12 预发布版本;缺乏严格的 URL 格式预校验,仅依赖运行时错误捕获;无法处理需要登录认证或反爬机制严格的页面;对动态渲染的 JavaScript 单页应用支持有限。

适合的目标群体包括:需要批量归档网络文章的内容创作者、构建知识库的研究人员、进行网页内容分析的开发者,以及需要将网页资料转换为可编辑文档的办公人员。

使用风险主要涉及:频繁抓取可能触发目标网站的反爬机制导致 IP 被封;抓取受版权保护内容存在法律合规风险;网络请求可能暴露用户 IP 地址;预发布版依赖可能存在未发现的稳定性问题;建议仅用于公开可访问的网页,避免处理敏感或需认证的页面。

webfetch-md 内容

手动下载zip · 9.6 kB
cli.jstext/javascript
请选择文件