核心功能
markdown-new 是一款轻量级 URL-to-Markdown 转换工具,专为 AI 工作流(RAG 摄入、摘要、归档、token 压缩)设计。它调用 Cloudflare 官方服务 markdown.new,将公开网页快速清洗为结构化 Markdown,支持三种转换模式:
- auto(默认):自动选择最快成功的管道
- ai:强制使用 Workers AI 进行 HTML-to-Markdown 转换
- browser:强制无头浏览器渲染,处理 JS 重载页面
此外提供 --retain-images 保留图片链接、--deliver-md 强制文件输出等选项,输出包含 x-markdown-tokens 等元数据,便于下游规划。
显著优点
- 零依赖安全:仅用 Python 标准库(urllib),无第三方包,供应链攻击面为零
- 输入验证严格:强制校验 http/https 协议与 URL 结构,杜绝命令注入
- 网络行为干净:仅向官方
https://markdown.new/发送 POST,TLS 1.2+ 加密,无数据外泄 - 多模式兜底:auto → browser 重试策略,兼顾速度与 JS 页面兼容性
- 元数据透明:返回 token 消耗、速率限制余量,便于成本预估
局限性与风险
- 外部服务依赖:完全依赖 Cloudflare 服务可用性;有 500 请求/天/IP 的硬限制,高频场景需自建方案
- T3 来源级别:个人开发者维护,未关联知名组织,长期维护稳定性待观察
- 公开网页限制:无法处理登录态、私有内容或反爬严格的站点
- 输出完整性非保证:复杂动态页面可能转换不全,关键提取需人工校验
适用人群
- AI 开发者、研究员:快速将网页知识库注入 RAG 或 Fine-tuning 流程
- 内容归档者:批量保存公开文档为 Markdown 存档
- 自动化工作流:需 URL→Markdown 的标准化、可脚本化转换
使用建议
优先使用 auto 模式,遇 JS 渲染问题再切 browser;关注 429 速率限制;对关键内容务必人工抽查验证。