使用说明

核心功能

markdown-new 是一款轻量级 URL-to-Markdown 转换工具，专为 AI 工作流（RAG 摄入、摘要、归档、token 压缩）设计。它调用 Cloudflare 官方服务 markdown.new，将公开网页快速清洗为结构化 Markdown，支持三种转换模式：

auto（默认）：自动选择最快成功的管道
ai：强制使用 Workers AI 进行 HTML-to-Markdown 转换
browser：强制无头浏览器渲染，处理 JS 重载页面

此外提供 --retain-images 保留图片链接、--deliver-md 强制文件输出等选项，输出包含 x-markdown-tokens 等元数据，便于下游规划。

显著优点

零依赖安全：仅用 Python 标准库（urllib），无第三方包，供应链攻击面为零
输入验证严格：强制校验 http/https 协议与 URL 结构，杜绝命令注入
网络行为干净：仅向官方 https://markdown.new/ 发送 POST，TLS 1.2+ 加密，无数据外泄
多模式兜底：auto → browser 重试策略，兼顾速度与 JS 页面兼容性
元数据透明：返回 token 消耗、速率限制余量，便于成本预估

局限性与风险

外部服务依赖：完全依赖 Cloudflare 服务可用性；有 500 请求/天/IP 的硬限制，高频场景需自建方案
T3 来源级别：个人开发者维护，未关联知名组织，长期维护稳定性待观察
公开网页限制：无法处理登录态、私有内容或反爬严格的站点
输出完整性非保证：复杂动态页面可能转换不全，关键提取需人工校验

适用人群

AI 开发者、研究员：快速将网页知识库注入 RAG 或 Fine-tuning 流程
内容归档者：批量保存公开文档为 Markdown 存档
自动化工作流：需 URL→Markdown 的标准化、可脚本化转换

使用建议

优先使用 auto 模式，遇 JS 渲染问题再切 browser；关注 429 速率限制；对关键内容务必人工抽查验证。

安全解读

核心用法

markdown-new 是一个将公开网页 URL 转换为 LLM 可读 Markdown 的轻量级工具，通过调用 Cloudflare 运营的 markdown.new 服务实现。支持三种转换模式：

auto（默认）：自动选择最快可用管道
ai：强制使用 Workers AI HTML-to-Markdown 转换
browser：强制无头浏览器渲染，适合 JS 密集型页面

典型工作流：先用 auto 模式，若输出缺失动态内容则切换到 browser 模式。支持 --retain-images 保留图片链接，以及 --deliver-md 强制文件输出。

显著优点

1. 极简依赖：纯 Python 标准库实现，零第三方依赖，供应链攻击面极小
2. 安全合规：通过 CLS-Certify S 级认证（95 分），无危险函数、无敏感信息硬编码、无权限升级诱导
3. 隐私友好：仅发送用户提供的 URL 到外部服务，不收集系统信息，符合 GDPR/CCPA 数据最小化原则
4. 灵活输出：支持直接输出到文件或 stdout，自动捕获 token 计数和 rate limit 元数据便于下游规划

潜在缺点与局限性

外部服务依赖：核心功能完全依赖 Cloudflare markdown.new，存在单点故障和服务可用性风险
速率限制：默认 500 请求/天/IP，高频场景需本地缓存策略
T3 来源级别：个人开发者/社区项目，非顶级基金会背书，长期维护持续性存疑
内容完整性非保证：复杂页面或特殊反爬机制可能导致转换不完整，关键提取需人工验证
仅支持公开页面：无法处理需登录或身份验证的内容

适合人群

AI 开发者需要为 RAG 流程快速清洗网页内容
研究人员进行大规模网页归档与结构化提取
自动化工作流构建者需低维护成本的 URL-to-text 方案
对安全审计要求较高、希望避免臃肿依赖的用户

常规风险

隐私泄露风险：用户提交的 URL 会被发送到 Cloudflare 服务器，敏感 URL 可能暴露访问意图
服务中断风险：外部 API 变更或下线将导致功能完全失效
法律合规风险：需自行确保目标页面允许抓取，遵守 robots.txt 和版权条款
误报风险：JS 渲染内容提取失败时可能导致关键信息遗漏，影响下游决策

url-to-markdown content-extraction rag-pipeline web-scraping zero-dependency cloudflare-api token-optimization archiving

Markdown.new Skill 内容

agents文件夹

references文件夹

scripts文件夹

手动下载zip · 6.3 kB

openai.yamltext/plain

请选择文件