mdnew是一个专注于网页内容净化的实用技能,通过调用markdown.new服务提供的三级转换管道(Header Negotiation -> Workers AI -> Browser Rendering),能够将任意网页URL转换为结构清晰、Token高效的Markdown格式。
核心用法极为简单直接:用户只需通过命令行传入目标URL,脚本即可自动完成内容获取与格式转换。该技能特别适用于当常规web_fetch或browser工具无法提供干净内容,或当用户需要为大型语言模型准备精简的上下文材料时。其执行流程首先尝试通过标准HTTP请求获取内容,若遇到JavaScript重度渲染的页面,则会自动回退到Cloudflare Browser Rendering服务,确保动态内容的完整捕获。
该技能的显著优点体现在四个维度:首先是极致的Token效率,相比原始HTML可减少高达80%的上下文占用,这对于受限于上下文窗口的AI Agent尤为关键;其次是数据净化能力,能够智能剥离广告、导航菜单、页脚等无关样板内容,仅保留核心文本;第三是自动化JS执行支持,解决了传统爬虫在面对现代单页应用时的渲染难题;最后是贴心的Agent优先设计,通过x-markdown-tokens响应头帮助开发者精确管理上下文窗口。
然而,mdnew也存在一些潜在缺点与局限性。作为外部服务依赖型工具,其核心功能完全依赖于markdown.new的可用性,一旦该服务宕机或变更API,技能将立即失效。此外,脚本缺乏对输入URL的格式验证机制,如果用户传入恶意构造的URL或本地文件路径,可能导致非预期行为。更重要的是,所有处理的URL信息都会被发送至第三方服务器,对于处理敏感内部文档或隐私要求严格的场景存在数据泄露风险。
该技能特别适合以下目标群体:AI应用开发者需要将网页内容快速注入RAG系统;数据分析师进行大规模网络文本采集与预处理;研究人员整理在线文献资料;以及任何需要将 messy HTML 转换为干净Markdown的内容工作者。
关于使用风险,除前述的第三方服务依赖和数据隐私问题外,用户还需注意网络延迟可能带来的性能瓶颈,特别是在批量处理大量URL时。此外,虽然代码本身仅使用Python标准库且无危险函数,但访问恶意网站URL本身可能带来安全风险,建议仅在处理可信来源的网页时使用此技能。