mdnew

🌐 轻量智能的网页Markdown转换器

🥥79总安装量 16评分人数 16
100% 的用户推荐

基于Cloudflare技术的T2可信来源工具,可将任意网页转为Token效率提升80%的纯净Markdown,专为Agent深度分析优化。

S

安全性较高,可在多数场景中优先使用

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 代码通过安全审计,无eval/exec/system等危险函数,仅使用Python标准库
  • ✅ 无已知CVE漏洞,依赖关系简单可靠
  • ⚠️ URL参数缺乏格式验证,建议用户自行确保输入合法性
  • ⚠️ 所有请求将发送至第三方服务markdown.new,存在数据外发风险
  • ✅ 无静默收集敏感信息行为,隐私保护机制完善

使用说明

mdnew是一个专注于网页内容净化的实用技能,通过调用markdown.new服务提供的三级转换管道(Header Negotiation -> Workers AI -> Browser Rendering),能够将任意网页URL转换为结构清晰、Token高效的Markdown格式。

核心用法极为简单直接:用户只需通过命令行传入目标URL,脚本即可自动完成内容获取与格式转换。该技能特别适用于当常规web_fetch或browser工具无法提供干净内容,或当用户需要为大型语言模型准备精简的上下文材料时。其执行流程首先尝试通过标准HTTP请求获取内容,若遇到JavaScript重度渲染的页面,则会自动回退到Cloudflare Browser Rendering服务,确保动态内容的完整捕获。

该技能的显著优点体现在四个维度:首先是极致的Token效率,相比原始HTML可减少高达80%的上下文占用,这对于受限于上下文窗口的AI Agent尤为关键;其次是数据净化能力,能够智能剥离广告、导航菜单、页脚等无关样板内容,仅保留核心文本;第三是自动化JS执行支持,解决了传统爬虫在面对现代单页应用时的渲染难题;最后是贴心的Agent优先设计,通过x-markdown-tokens响应头帮助开发者精确管理上下文窗口。

然而,mdnew也存在一些潜在缺点与局限性。作为外部服务依赖型工具,其核心功能完全依赖于markdown.new的可用性,一旦该服务宕机或变更API,技能将立即失效。此外,脚本缺乏对输入URL的格式验证机制,如果用户传入恶意构造的URL或本地文件路径,可能导致非预期行为。更重要的是,所有处理的URL信息都会被发送至第三方服务器,对于处理敏感内部文档或隐私要求严格的场景存在数据泄露风险。

该技能特别适合以下目标群体:AI应用开发者需要将网页内容快速注入RAG系统;数据分析师进行大规模网络文本采集与预处理;研究人员整理在线文献资料;以及任何需要将 messy HTML 转换为干净Markdown的内容工作者。

关于使用风险,除前述的第三方服务依赖和数据隐私问题外,用户还需注意网络延迟可能带来的性能瓶颈,特别是在批量处理大量URL时。此外,虽然代码本身仅使用Python标准库且无危险函数,但访问恶意网站URL本身可能带来安全风险,建议仅在处理可信来源的网页时使用此技能。

mdnew 内容

文件夹图标scripts文件夹
手动下载zip · 1.6 kB
mdnew.pytext/plain
请选择文件