url-reader

🔗 全网内容一键采集,本地永久保存

🥥96总安装量 20评分人数 13
100% 的用户推荐

三层技术架构智能抓取微信、小红书等内容,自动本地保存为 Markdown,让个人知识管理更高效安全。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 无危险函数调用(eval/exec/system),代码安全规范,通过静态安全审计
  • ✅ 数据仅本地存储,无静默上传用户文件到远程服务器的行为
  • ⚠️ 来源为个人开发者(T3 级别),虽代码开源可审计,但建议使用前自行审查
  • ⚠️ 依赖版本未完全锁定,建议安装时确认 firecrawl-py、playwright 的具体版本号
  • ✅ 网络请求目的明确且用户可控,所有 API 调用均与功能描述一致,无隐蔽通信

使用说明

核心用法

URL Reader 是一款专为中国互联网生态设计的智能网页内容提取工具。用户只需提供任意 URL,系统即可自动识别平台类型(微信公众号、小红书、今日头条、抖音、淘宝、京东等),并智能选择最佳读取策略。通过三层降级架构(Firecrawl API → Jina Reader → Playwright 浏览器自动化),即使面对反爬机制严格的平台也能有效提取核心内容,最终自动保存为 Markdown 格式并下载图片到本地指定目录,无需手动复制粘贴即可构建个人知识库。

显著优点

该 Skill 的最大优势在于其智能降级策略,当首选的 Firecrawl API 遇到限制时,自动切换到免费的 Jina Reader,最后使用 Playwright 作为兜底方案,确保高成功率。针对中国主流平台的深度适配是其另一亮点,特别是对微信公众号这类反爬严格的平台提供了登录态保持支持。此外,自动本地保存功能极大提升了工作效率,所有内容和图片按日期和标题自动归档,直接输出干净的 Markdown 格式,便于后续编辑和知识管理。

潜在缺点与局限性

首先,Firecrawl 的免费额度有限(500页/月),高频使用需付费或依赖降级策略。其次,部分平台(如微信公众号、淘宝)需要配置登录态,首次设置较为复杂,且登录状态可能过期需要重新配置。另外,该 Skill 依赖第三方服务的可用性,若 Firecrawl 或 Jina 服务中断,仅剩下 Playwright 兜底,性能会显著下降。最后,大规模商业爬取可能违反各平台的 Terms of Service,不适合企业级高频数据采集场景。

适合的目标群体

本 Skill 非常适合个人知识管理者内容创作者学术研究人员以及需要批量保存网页资料的用户。对于经常需要收藏微信公众号文章、小红书笔记、知乎回答等内容,并希望离线保存、防止链接失效的用户尤为实用。同时,适合对 Markdown 格式有偏好,希望将网络内容整合到 Obsidian、Notion 等知识库工具中的效率工具使用者。

使用风险

1. 依赖稳定性风险:核心功能依赖 Firecrawl、Jina 等外部 API,若服务不可用或更改接口,可能影响功能
2. 路径配置风险:默认保存路径包含特定用户目录(/Users/ys/...),使用前必须修改为自身路径,否则可能报错或保存到错误位置

3. 依赖版本风险:依赖版本未完全锁定,不同版本的 Playwright 或 firecrawl-py 可能存在兼容性问题

4. 平台封禁风险:频繁爬取可能导致 IP 被目标平台临时封禁,建议合理控制请求频率

5. 隐私合规风险:抓取受版权保护或隐私敏感内容时需自行承担合规责任

url-reader 内容

文件夹图标scripts文件夹
手动下载zip · 21.6 kB
save_content.pytext/plain
请选择文件