xiaohongshu-extract - 小红书内容元数据智能提取

使用说明

核心用法

Xiaohongshu Extract 是一款专注于小红书（XHS）内容元数据提取的 Python 命令行工具。用户只需提供小红书的分享链接或发现页 URL，工具即可通过解析页面中的 window.__INITIAL_STATE__ 变量，提取笔记的完整元数据信息。支持通过 --pretty 参数美化 JSON 输出，--output 指定文件保存路径，--flat-only 获取扁平化数据结构，以及 --error-json 以 JSON 格式输出错误信息。该工具特别适合需要批量获取笔记标题、描述、发布时间、作者信息、互动数据（点赞、收藏、评论数）以及视频流地址等场景。

显著优点

该工具在安全性方面表现优异，获得 BSS A 级认证。代码结构清晰，完全避免使用 eval()、exec()、system() 等危险函数，无 SQL 注入或命令注入风险。依赖管理严格，仅使用 Python 标准库和广泛认可的 requests 库，无动态代码加载行为。功能设计专注且实用，仅读取公开可见的笔记数据，不涉及用户隐私信息收集。输出格式灵活，同时支持嵌套式和扁平化数据结构，便于不同下游应用处理。完善的异常处理机制能够优雅应对网络超时、页面结构变化等异常情况，且错误信息不会泄露系统敏感信息。

潜在缺点与局限性

作为页面解析型工具，其稳定性高度依赖小红书的页面结构。一旦平台更新前端代码或改变 window.__INITIAL_STATE__ 的数据格式，工具可能失效，需要及时维护更新。此外，该工具仅支持提取公开访问的笔记内容，对于需要登录查看、私密账号或受版权保护的内容无法获取。在实际使用中，频繁请求可能触发小红书的反爬机制，遇到登录提示、验证码验证或 IP 临时封禁等情况，需要用户合理控制请求频率。

适合的目标群体

本工具适合内容运营人员、数据分析师、市场研究人员以及内容创作者使用。运营人员可利用其批量分析竞品笔记数据；研究人员可用于社交媒体内容趋势分析；创作者可用于备份自己发布的作品元数据。对于需要构建小红书内容数据库的开发者，该工具也可作为数据采集的前置组件。

使用风险与注意事项

尽管代码本身通过安全审计，但用户仍需注意合规使用风险。首先，高频爬取可能违反小红书的服务条款，建议遵守 robots.txt 规定并控制请求频率。其次，工具来源为 GitHub 个人开发者（T3 级），虽然当前版本安全，但建议在使用前审查代码内容并关注上游更新。网络环境方面，工具需要访问小红书域名，建议在可信网络环境下使用。最后，使用 --output 参数时注意指定安全的文件路径，避免覆盖重要系统文件。

content-media data-analytics automation productivity

xiaohongshu-extract 内容

agents文件夹

scripts文件夹

手动下载zip · 5.0 kB

openai.yamltext/plain

请选择文件