xiaohongshu-extract

📕 小红书内容元数据智能提取

🥥81总安装量 20评分人数 10
100% 的用户推荐

安全规范的小红书内容提取工具,可快速解析公开笔记的元数据、互动数据及视频信息,助力内容分析与合规研究。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全规范,无 eval/exec/system/subprocess 等危险函数,无 SQL 注入或命令注入漏洞
  • ✅ 依赖版本锁定,仅使用 Python 标准库和 requests 库,无动态代码加载或已知 CVE 漏洞
  • ⚠️ 需要网络访问权限以获取小红书页面内容,频繁请求可能触发反爬机制
  • ⚠️ 来源为 T3 级个人开发者,建议在使用前审查代码并关注上游更新
  • ✅ 数据仅本地处理,不收集用户密码、Cookie 等敏感信息,也无第三方上传行为

使用说明

核心用法

Xiaohongshu Extract 是一款专注于小红书(XHS)内容元数据提取的 Python 命令行工具。用户只需提供小红书的分享链接或发现页 URL,工具即可通过解析页面中的 window.__INITIAL_STATE__ 变量,提取笔记的完整元数据信息。支持通过 --pretty 参数美化 JSON 输出,--output 指定文件保存路径,--flat-only 获取扁平化数据结构,以及 --error-json 以 JSON 格式输出错误信息。该工具特别适合需要批量获取笔记标题、描述、发布时间、作者信息、互动数据(点赞、收藏、评论数)以及视频流地址等场景。

显著优点

该工具在安全性方面表现优异,获得 BSS A 级认证。代码结构清晰,完全避免使用 eval()exec()system() 等危险函数,无 SQL 注入或命令注入风险。依赖管理严格,仅使用 Python 标准库和广泛认可的 requests 库,无动态代码加载行为。功能设计专注且实用,仅读取公开可见的笔记数据,不涉及用户隐私信息收集。输出格式灵活,同时支持嵌套式和扁平化数据结构,便于不同下游应用处理。完善的异常处理机制能够优雅应对网络超时、页面结构变化等异常情况,且错误信息不会泄露系统敏感信息。

潜在缺点与局限性

作为页面解析型工具,其稳定性高度依赖小红书的页面结构。一旦平台更新前端代码或改变 window.__INITIAL_STATE__ 的数据格式,工具可能失效,需要及时维护更新。此外,该工具仅支持提取公开访问的笔记内容,对于需要登录查看、私密账号或受版权保护的内容无法获取。在实际使用中,频繁请求可能触发小红书的反爬机制,遇到登录提示、验证码验证或 IP 临时封禁等情况,需要用户合理控制请求频率。

适合的目标群体

本工具适合内容运营人员、数据分析师、市场研究人员以及内容创作者使用。运营人员可利用其批量分析竞品笔记数据;研究人员可用于社交媒体内容趋势分析;创作者可用于备份自己发布的作品元数据。对于需要构建小红书内容数据库的开发者,该工具也可作为数据采集的前置组件。

使用风险与注意事项

尽管代码本身通过安全审计,但用户仍需注意合规使用风险。首先,高频爬取可能违反小红书的服务条款,建议遵守 robots.txt 规定并控制请求频率。其次,工具来源为 GitHub 个人开发者(T3 级),虽然当前版本安全,但建议在使用前审查代码内容并关注上游更新。网络环境方面,工具需要访问小红书域名,建议在可信网络环境下使用。最后,使用 --output 参数时注意指定安全的文件路径,避免覆盖重要系统文件。

xiaohongshu-extract 内容

文件夹图标agents文件夹
文件夹图标scripts文件夹
手动下载zip · 5.0 kB
openai.yamltext/plain
请选择文件