Markdown.new Skill

⚠️ 网页一键转 Markdown · AI 就绪

通过 Cloudflare markdown.new 将任意公开网页一键转换为 LLM 就绪的 Markdown,支持 AI/浏览器双模式,零依赖、高安全。

收藏
78.4k
安装
18.2k
版本
1.0.0
CLS 安全性认证2026-05-07
点击查看完整报告 >

使用说明

核心功能

markdown-new 是一款轻量级 URL-to-Markdown 转换工具,专为 AI 工作流(RAG 摄入、摘要、归档、token 压缩)设计。它调用 Cloudflare 官方服务 markdown.new,将公开网页快速清洗为结构化 Markdown,支持三种转换模式:

  • auto(默认):自动选择最快成功的管道
  • ai:强制使用 Workers AI 进行 HTML-to-Markdown 转换
  • browser:强制无头浏览器渲染,处理 JS 重载页面

此外提供 --retain-images 保留图片链接、--deliver-md 强制文件输出等选项,输出包含 x-markdown-tokens 等元数据,便于下游规划。

显著优点

  • 零依赖安全:仅用 Python 标准库(urllib),无第三方包,供应链攻击面为零
  • 输入验证严格:强制校验 http/https 协议与 URL 结构,杜绝命令注入
  • 网络行为干净:仅向官方 https://markdown.new/ 发送 POST,TLS 1.2+ 加密,无数据外泄
  • 多模式兜底:auto → browser 重试策略,兼顾速度与 JS 页面兼容性
  • 元数据透明:返回 token 消耗、速率限制余量,便于成本预估

局限性与风险

  • 外部服务依赖:完全依赖 Cloudflare 服务可用性;有 500 请求/天/IP 的硬限制,高频场景需自建方案
  • T3 来源级别:个人开发者维护,未关联知名组织,长期维护稳定性待观察
  • 公开网页限制:无法处理登录态、私有内容或反爬严格的站点
  • 输出完整性非保证:复杂动态页面可能转换不全,关键提取需人工校验

适用人群

  • AI 开发者、研究员:快速将网页知识库注入 RAG 或 Fine-tuning 流程
  • 内容归档者:批量保存公开文档为 Markdown 存档
  • 自动化工作流:需 URL→Markdown 的标准化、可脚本化转换

使用建议

优先使用 auto 模式,遇 JS 渲染问题再切 browser;关注 429 速率限制;对关键内容务必人工抽查验证。

安全解读

核心用法

markdown-new 是一个将公开网页 URL 转换为 LLM 可读 Markdown 的轻量级工具,通过调用 Cloudflare 运营的 markdown.new 服务实现。支持三种转换模式:

  • auto(默认):自动选择最快可用管道
  • ai:强制使用 Workers AI HTML-to-Markdown 转换
  • browser:强制无头浏览器渲染,适合 JS 密集型页面

典型工作流:先用 auto 模式,若输出缺失动态内容则切换到 browser 模式。支持 --retain-images 保留图片链接,以及 --deliver-md 强制文件输出。

显著优点

1. 极简依赖:纯 Python 标准库实现,零第三方依赖,供应链攻击面极小
2. 安全合规:通过 CLS-Certify S 级认证(95 分),无危险函数、无敏感信息硬编码、无权限升级诱导

3. 隐私友好:仅发送用户提供的 URL 到外部服务,不收集系统信息,符合 GDPR/CCPA 数据最小化原则

4. 灵活输出:支持直接输出到文件或 stdout,自动捕获 token 计数和 rate limit 元数据便于下游规划

潜在缺点与局限性

  • 外部服务依赖:核心功能完全依赖 Cloudflare markdown.new,存在单点故障和服务可用性风险
  • 速率限制:默认 500 请求/天/IP,高频场景需本地缓存策略
  • T3 来源级别:个人开发者/社区项目,非顶级基金会背书,长期维护持续性存疑
  • 内容完整性非保证:复杂页面或特殊反爬机制可能导致转换不完整,关键提取需人工验证
  • 仅支持公开页面:无法处理需登录或身份验证的内容

适合人群

  • AI 开发者需要为 RAG 流程快速清洗网页内容
  • 研究人员进行大规模网页归档与结构化提取
  • 自动化工作流构建者需低维护成本的 URL-to-text 方案
  • 对安全审计要求较高、希望避免臃肿依赖的用户

常规风险

  • 隐私泄露风险:用户提交的 URL 会被发送到 Cloudflare 服务器,敏感 URL 可能暴露访问意图
  • 服务中断风险:外部 API 变更或下线将导致功能完全失效
  • 法律合规风险:需自行确保目标页面允许抓取,遵守 robots.txt 和版权条款
  • 误报风险:JS 渲染内容提取失败时可能导致关键信息遗漏,影响下游决策

Markdown.new Skill 内容

agents文件夹
references文件夹
scripts文件夹
手动下载zip · 6.3 kB
openai.yamltext/plain
请选择文件