markdown-fetch

🌐 Token 节省 80% 的智能抓取方案

🥥41总安装量 13评分人数 7
100% 的用户推荐

基于 Cloudflare Markdown for Agents 技术,为 AI 应用提供 Token 消耗降低 80% 的网页抓取方案,显著提升内容获取效率与成本效益。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全规范,无 eval/exec/system 等危险函数,无动态代码加载行为
  • ✅ 零第三方依赖,仅使用原生 fetch API,供应链风险极低
  • ✅ 无敏感数据收集、静默上传或系统破坏性操作
  • ⚠️ T3 来源(个人开发者账号),建议生产环境进行代码审查
  • ⚠️ 网络请求目标由调用方控制,需确保传入 URL 的可信性

使用说明

Markdown Fetch 是一款专为 AI Agent 设计的网页抓取优化工具,通过利用 Cloudflare 推出的 Markdown for Agents 功能,实现网页内容获取的 Token 消耗降低约 80%。该技能的核心用法十分简洁:在发起 HTTP 请求时,通过设置 Accept: text/markdown, text/html 请求头,让 Cloudflare 托管的网站直接返回 Markdown 格式内容,而非传统的 HTML。当目标网站支持该功能时,响应将包含 text/markdown 内容类型,开发者可直接使用纯净的 Markdown 文本,无需再进行复杂的 HTML 解析和清洗;若不支持,则自动回退到标准 HTML 模式,确保兼容性。

该技能的显著优点在于其极致的效率优化和轻量级设计。首先,Token 消耗减少 80% 意味着在构建基于大语言模型的应用时,可以大幅降低成本并提升处理速度,特别适合需要频繁抓取网页内容的 RAG(检索增强生成)系统。其次,代码实现仅依赖原生 JavaScript fetch API,零第三方依赖,避免了供应链攻击风险,且易于集成到现有 Node.js 或前端项目中。此外,响应中提供的 x-markdown-tokens 头部允许开发者精确监控 Token 节省情况,便于成本核算。

然而,该技能也存在明显的局限性。最主要的问题是适用范围受限:仅对托管在 Cloudflare 上的网站有效,对于非 Cloudflare 托管的站点会自动回退到 HTML 模式,无法享受 Token 节省优势。其次,功能相对单一,仅专注于内容格式转换,不涉及并发控制、请求重试、缓存策略等高级网络请求功能。另外,作为 T3 来源的个人开发者作品,长期维护和社区支持能力有待观察。

适合使用该技能的目标群体主要包括:构建网页爬虫或数据抓取 Agent 的开发者、需要优化上下文窗口使用的 AI 应用架构师、以及关注 API 调用成本的工程团队。特别是那些主要抓取 Cloudflare 生态内网站(如大量使用 Cloudflare 的 SaaS 服务、博客平台)的场景,将获得最大收益。

在使用过程中,开发者需注意以下常规风险:网络请求本身存在不确定性,目标网站的可用性直接影响功能表现;由于缺乏内置的 URL 验证机制,调用方需自行确保传入 URL 的可信性,避免请求恶意站点;代码中未设置请求超时,在极端网络环境下可能导致长时间挂起;此外,依赖 Cloudflare 的特定功能意味着若 Cloudflare 调整或弃用该服务,技能将失效。建议在生产环境中添加适当的错误处理和超时控制。

markdown-fetch 内容

手动下载zip · 3.3 kB
index.jstext/javascript
请选择文件