使用说明

mdnew是一个专注于网页内容净化的实用技能，通过调用markdown.new服务提供的三级转换管道（Header Negotiation -> Workers AI -> Browser Rendering），能够将任意网页URL转换为结构清晰、Token高效的Markdown格式。

核心用法极为简单直接：用户只需通过命令行传入目标URL，脚本即可自动完成内容获取与格式转换。该技能特别适用于当常规web_fetch或browser工具无法提供干净内容，或当用户需要为大型语言模型准备精简的上下文材料时。其执行流程首先尝试通过标准HTTP请求获取内容，若遇到JavaScript重度渲染的页面，则会自动回退到Cloudflare Browser Rendering服务，确保动态内容的完整捕获。

该技能的显著优点体现在四个维度：首先是极致的Token效率，相比原始HTML可减少高达80%的上下文占用，这对于受限于上下文窗口的AI Agent尤为关键；其次是数据净化能力，能够智能剥离广告、导航菜单、页脚等无关样板内容，仅保留核心文本；第三是自动化JS执行支持，解决了传统爬虫在面对现代单页应用时的渲染难题；最后是贴心的Agent优先设计，通过x-markdown-tokens响应头帮助开发者精确管理上下文窗口。

然而，mdnew也存在一些潜在缺点与局限性。作为外部服务依赖型工具，其核心功能完全依赖于markdown.new的可用性，一旦该服务宕机或变更API，技能将立即失效。此外，脚本缺乏对输入URL的格式验证机制，如果用户传入恶意构造的URL或本地文件路径，可能导致非预期行为。更重要的是，所有处理的URL信息都会被发送至第三方服务器，对于处理敏感内部文档或隐私要求严格的场景存在数据泄露风险。

该技能特别适合以下目标群体：AI应用开发者需要将网页内容快速注入RAG系统；数据分析师进行大规模网络文本采集与预处理；研究人员整理在线文献资料；以及任何需要将 messy HTML 转换为干净Markdown的内容工作者。

关于使用风险，除前述的第三方服务依赖和数据隐私问题外，用户还需注意网络延迟可能带来的性能瓶颈，特别是在批量处理大量URL时。此外，虽然代码本身仅使用Python标准库且无危险函数，但访问恶意网站URL本身可能带来安全风险，建议仅在处理可信来源的网页时使用此技能。

安全解读

核心用法

mdnew 是一个轻量级 Python 脚本，通过调用 markdown.new 的三层转换管道（Header Negotiation → Workers AI → Browser Rendering），将任意 URL 的网页内容转换为干净、结构化的 Markdown 格式。

基础命令：

python3 scripts/mdnew.py <url>

显著优点

1. 极致 Token 效率：相比原始 HTML 可减少高达 80% 的内容体积，显著降低 LLM 上下文窗口压力
2. 智能内容清洗：自动剥离广告、导航栏、页脚等 boilerplate，保留核心正文
3. JS 页面支持：通过 Cloudflare Browser Rendering 回退机制，完美处理 JavaScript 动态渲染页面
4. 零依赖部署：仅使用 Python 标准库 urllib，无需 pip 安装任何第三方包
5. Agent 原生设计：内置 x-markdown-tokens 响应头，便于监控和管理 token 消耗

潜在缺点与局限性

外部服务依赖：核心功能完全依赖 markdown.new 服务可用性，若服务故障则 skill 失效
无本地缓存：每次请求均实时调用外部 API，高频使用可能触发速率限制
URL 协议未验证：当前实现未限制输入 URL 的协议类型，存在潜在的 SSRF 风险（建议修复）
隐私数据顾虑：目标 URL 会发送至第三方服务，敏感内网地址不宜使用
错误处理简单：异常场景反馈信息较简略，调试体验有待提升

适合人群

AI Agent 开发者：需要将网页内容快速注入 LLM 上下文进行摘要、分析或问答
研究人员：批量采集网页资料构建知识库，追求结构化纯净数据
自动化工作流：配合 web_fetch 或 browser 工具作为降级方案，处理复杂 JS 页面

常规风险

| 风险类型 | 等级 | 说明 |

|---------|------|------|

| 数据泄露 | 低 | URL 发送至外部服务，避免提交含敏感参数的内网地址 |

| SSRF | 低 | 建议添加协议白名单限制（http/https） |

| 服务可用性 | 中 | 单点依赖 markdown.new，生产环境需考虑容错设计 |

| 速率限制 | 低 | 高频调用可能触发服务商限流 |

该 skill 代码简洁（36 行可执行代码）、功能透明、无隐藏行为，经 CLS 安全认证达到 S 级，是网页内容提取场景的高性价比选择。

content-media docs productivity automation api

mdnew 内容

scripts文件夹

手动下载zip · 1.6 kB

mdnew.pytext/plain

请选择文件