使用说明

核心用法

xiaohongshu-crawler 是一款针对小红书平台的自动化内容采集工具，主要面向需要获取平台公开数据进行学习研究的用户群体。该工具通过模拟浏览器请求实现数据采集，核心功能包括：

1. 搜索笔记：支持关键词检索，可获取笔记列表及基础元数据
2. 笔记详情：获取单条笔记的完整内容、点赞收藏数据等
3. 用户信息：采集用户公开的个人信息及发布内容
4. 热门笔记：抓取平台热门内容榜单
5. 深度爬取：批量采集并生成结构化 Markdown 分析报告

显著优点

功能完整：覆盖搜索、详情、用户、热门四大核心场景
开箱即用：提供交互式 Cookie 获取脚本，降低配置门槛
反爬内置：默认 2-8 秒随机延迟、每分钟 10 请求限速、模拟人类行为
输出友好：深度爬取模式可自动生成结构化分析报告

潜在缺点与局限性

强制登录依赖：搜索等核心功能必须登录，账号存在被封风险
合规边界模糊："学习研究" 与 "商业用途" 界定不清，实际使用易触线
数据规模受限：官方明确限制单次 <50 条，大规模采集不可行
平台对抗性：小红书反爬策略持续升级，工具稳定性存疑
法律风险：用户协议禁止爬虫行为，可能面临平台追责

适合人群

市场研究人员（小规模竞品分析）
内容创作者（选题灵感收集）
学术研究者（社交媒体数据样本）
不适合：企业级数据采集、商业化数据服务、高频实时监控

常规风险

| 风险类型 | 说明 |

|---------|------|

| 账号安全 | Cookie 泄露导致账号被盗用 |

| 封禁风险 | 触发风控后账号/设备被拉黑 |

| 法律合规 | 违反《网络安全法》及平台协议 |

| 数据质量 | 反爬对抗下数据完整性不保证 |

安全解读

核心功能与用法

xiaohongshu-crawler 是一款针对小红书平台的内容爬取工具，主要功能包括：

搜索笔记：支持关键词搜索，需登录获取 Cookie
笔记详情：获取单条笔记的完整内容与互动数据
用户信息：提取公开的用户资料与发布历史
热门笔记：抓取平台推荐的热门内容
深度分析：批量爬取并生成 Markdown 分析报告

安装方式为 clawhub install xiaohongshu-crawler，核心依赖 Playwright 浏览器自动化框架。使用前需通过交互式脚本完成扫码登录并保存 Cookie。

显著优点

1. 功能聚焦：专门针对小红书平台优化，API 设计贴合实际业务场景
2. 反爬机制完善：内置随机延迟（2-8秒）、请求频率限制（每分钟≤10次）、用户代理轮换及人类行为模拟，降低被封禁风险
3. 代码质量良好：模块化架构（lib/核心库 + scripts/脚本层），1,247行代码结构清晰，无危险函数或敏感信息泄露
4. 依赖安全可靠：使用 Playwright、axios、cheerio 等主流开源库，无已知 CVE 漏洞
5. 合规声明明确：文档中明确禁止商业用途、大规模爬取及数据分发，符合研究工具定位

潜在局限与风险

| 维度 | 具体说明 |

|------|---------|

| **来源可信度** | T3 级个人开发者项目（Djttt），维护稳定性与安全响应能力相对有限 |

| **功能限制** | 搜索功能强制依赖登录 Cookie，无法匿名使用；部分高级内容受平台权限控制 |

| **法律合规** | 爬虫合规性声明仅属 warn 级别，实际使用需用户自行承担违反平台 ToS 的风险 |

| **技术风险** | 使用 `--no-sandbox` 浏览器参数降低安全性；Cookie 本地明文存储存在泄露隐患 |

| **平台对抗** | 依赖浏览器自动化，面临平台反爬策略持续升级导致的失效风险 |

适合人群

学术研究者：需要社交媒体文本数据进行内容分析、趋势研究
市场分析师：小规模竞品监测与用户洞察（需确保合规）
技术学习者：了解爬虫技术、Playwright 自动化及反爬机制实现
内容创作者：个人备份已发布内容或分析热门话题特征

不建议使用场景：商业数据服务、高频实时监控、大规模用户画像构建、绕过付费墙获取内容。

常规风险提示

平台 ToS 明确禁止自动化抓取，存在账号封禁及法律追责风险
个人开发者维护，安全更新与功能持续性无保障
Cookie 凭证本地存储，多用户环境需严格管控文件权限
建议单次爬取量控制在 50 条以内，避免触发平台风控

web-scraping xiaohongshu social-media data-collection automation content-analysis python

Xiaohongshu Crawler 内容

lib文件夹

references文件夹

reports文件夹

scripts文件夹

手动下载zip · 34.0 kB

anti-crawl.jstext/javascript

请选择文件