使用说明

Crawl4AI-Skill 是一款面向LLM工作流优化的智能爬虫工具，提供三大核心能力：

1. 搜索+爬取一体化：集成 DuckDuckGo 搜索（免API Key），自动爬取结果并输出LLM友好的Markdown格式，通过智能去冗余大幅节省Token消耗。

2. 智能全站爬取：自动识别 sitemap 和 llms-full.txt，支持设置最大页面数限制，适合文档站、博客等结构化内容的批量获取。

3. 登录态爬取：突破传统爬虫限制，支持 Twitter/X（Cookie登录）和小红书（扫码登录）的认证内容获取，可提取推文及引用推文。

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| 账号安全 | Cookie泄露导致账号被盗 | 使用专用小号、定期清理session |

| 合规风险 | 违反平台服务条款 | 控制请求频率、仅用于个人研究 |

| 数据残留 | 本地加密文件被物理提取 | 使用全盘加密、及时执行session-clear |

| 供应链攻击 | PyPI包被篡改 | 优先从源码安装并审查代码 |

建议安全等级：本地开发环境推荐，生产环境需谨慎评估法律合规性。

安全解读

Crawl4AI Skill 是一款面向开发者和研究者的智能网页爬取工具封装器，整合了搜索、爬取、数据优化与社交平台登录四大能力：

搜索与爬取：集成 DuckDuckGo 免 API Key 搜索，支持单页爬取、全站智能爬取（自动识别 sitemap/llms-full.txt），以及「搜索→爬取」一键流水线操作。

LLM 优化输出：将原始网页内容转换为「Fit Markdown」格式，自动去除冗余元素，显著降低后续 LLM 处理的 Token 消耗。

登录态爬取：支持 Twitter/X（Cookie/环境变量/文件登录）和小红书（扫码登录）的认证爬取，可提取推文内容（含引用推文），突破平台公开访问限制。

安全设计：Session Cookie 采用 AES-128 加密存储，密钥基于机器标识符派生（换机器无法解密），文件权限 600，所有数据严格本地存储不上传。

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| 依赖风险 | Python 包可能含未审计代码 | 安装前 `pip download` 审查源码 |

| 凭证泄露 | Cookie 文件本地存储 | 环境变量传入，用完 `session-clear` |

| 合规风险 | 违反平台 robots.txt/服务条款 | 控制请求频率，遵守各平台规则 |

| 账号安全 | 使用真实社交账号登录爬取 | 使用测试/备用账号，定期轮换 |

| 维护风险 | 个人开发者项目可能停更 | 关注仓库活跃度，备份关键功能代码 |

安全认证评分 A 级（92 分），威胁扫描零检出，隐私合规全部通过，属标准安全级别工具。

手动下载zip · 2.7 kB

SKILL.mdtext/markdown

请选择文件