mdnew

🌐 轻量智能的网页Markdown转换器

基于Cloudflare技术的T2可信来源工具,可将任意网页转为Token效率提升80%的纯净Markdown,专为Agent深度分析优化。

收藏
22.8k
安装
4.6k
版本
v1.0.0
CLS 安全性认证2026-05-03
点击查看完整报告 >

使用说明

mdnew是一个专注于网页内容净化的实用技能,通过调用markdown.new服务提供的三级转换管道(Header Negotiation -> Workers AI -> Browser Rendering),能够将任意网页URL转换为结构清晰、Token高效的Markdown格式。

核心用法极为简单直接:用户只需通过命令行传入目标URL,脚本即可自动完成内容获取与格式转换。该技能特别适用于当常规web_fetch或browser工具无法提供干净内容,或当用户需要为大型语言模型准备精简的上下文材料时。其执行流程首先尝试通过标准HTTP请求获取内容,若遇到JavaScript重度渲染的页面,则会自动回退到Cloudflare Browser Rendering服务,确保动态内容的完整捕获。

该技能的显著优点体现在四个维度:首先是极致的Token效率,相比原始HTML可减少高达80%的上下文占用,这对于受限于上下文窗口的AI Agent尤为关键;其次是数据净化能力,能够智能剥离广告、导航菜单、页脚等无关样板内容,仅保留核心文本;第三是自动化JS执行支持,解决了传统爬虫在面对现代单页应用时的渲染难题;最后是贴心的Agent优先设计,通过x-markdown-tokens响应头帮助开发者精确管理上下文窗口。

然而,mdnew也存在一些潜在缺点与局限性。作为外部服务依赖型工具,其核心功能完全依赖于markdown.new的可用性,一旦该服务宕机或变更API,技能将立即失效。此外,脚本缺乏对输入URL的格式验证机制,如果用户传入恶意构造的URL或本地文件路径,可能导致非预期行为。更重要的是,所有处理的URL信息都会被发送至第三方服务器,对于处理敏感内部文档或隐私要求严格的场景存在数据泄露风险。

该技能特别适合以下目标群体:AI应用开发者需要将网页内容快速注入RAG系统;数据分析师进行大规模网络文本采集与预处理;研究人员整理在线文献资料;以及任何需要将 messy HTML 转换为干净Markdown的内容工作者。

关于使用风险,除前述的第三方服务依赖和数据隐私问题外,用户还需注意网络延迟可能带来的性能瓶颈,特别是在批量处理大量URL时。此外,虽然代码本身仅使用Python标准库且无危险函数,但访问恶意网站URL本身可能带来安全风险,建议仅在处理可信来源的网页时使用此技能。

安全解读

核心用法

mdnew 是一个轻量级 Python 脚本,通过调用 markdown.new 的三层转换管道(Header Negotiation → Workers AI → Browser Rendering),将任意 URL 的网页内容转换为干净、结构化的 Markdown 格式。

基础命令

python3 scripts/mdnew.py <url>

显著优点

1. 极致 Token 效率:相比原始 HTML 可减少高达 80% 的内容体积,显著降低 LLM 上下文窗口压力
2. 智能内容清洗:自动剥离广告、导航栏、页脚等 boilerplate,保留核心正文

3. JS 页面支持:通过 Cloudflare Browser Rendering 回退机制,完美处理 JavaScript 动态渲染页面

4. 零依赖部署:仅使用 Python 标准库 urllib,无需 pip 安装任何第三方包

5. Agent 原生设计:内置 x-markdown-tokens 响应头,便于监控和管理 token 消耗

潜在缺点与局限性

  • 外部服务依赖:核心功能完全依赖 markdown.new 服务可用性,若服务故障则 skill 失效
  • 无本地缓存:每次请求均实时调用外部 API,高频使用可能触发速率限制
  • URL 协议未验证:当前实现未限制输入 URL 的协议类型,存在潜在的 SSRF 风险(建议修复)
  • 隐私数据顾虑:目标 URL 会发送至第三方服务,敏感内网地址不宜使用
  • 错误处理简单:异常场景反馈信息较简略,调试体验有待提升

适合人群

  • AI Agent 开发者:需要将网页内容快速注入 LLM 上下文进行摘要、分析或问答
  • 研究人员:批量采集网页资料构建知识库,追求结构化纯净数据
  • 自动化工作流:配合 web_fetchbrowser 工具作为降级方案,处理复杂 JS 页面

常规风险

| 风险类型 | 等级 | 说明 |
|---------|------|------|
| 数据泄露 | 低 | URL 发送至外部服务,避免提交含敏感参数的内网地址 |
| SSRF | 低 | 建议添加协议白名单限制(http/https) |
| 服务可用性 | 中 | 单点依赖 markdown.new,生产环境需考虑容错设计 |
| 速率限制 | 低 | 高频调用可能触发服务商限流 |

该 skill 代码简洁(36 行可执行代码)、功能透明、无隐藏行为,经 CLS 安全认证达到 S 级,是网页内容提取场景的高性价比选择。

mdnew 内容

scripts文件夹
手动下载zip · 1.6 kB
mdnew.pytext/plain
请选择文件