使用说明

核心用法

Xiaohongshu Search Summarizer 是一个专门解决小红书数据采集难题的自动化技能。由于小红书拥有业界领先的反爬机制（频繁404、IP封禁、动态渲染），该技能采用playwright-cli驱动 headed 浏览器模拟真实用户行为，完整绕过了传统HTTP请求的封锁。

执行流程分为两阶段：

Phase 1 - 子代理数据采集

在真实浏览器窗口中模拟搜索关键词
智能滑动图片轮播，懒加载全部高清图片
提取标题、正文、热评及所有图片
本地存储图片并生成结构化原始数据文档

Phase 2 - AI多模态合成

读取原始数据文件及所有图片路径
必须使用视觉能力解析图片内容（流程图、UI界面、示意图等）
深度分析文本与评论，过滤噪音（如"私我"），保留有价值的多元观点
按主题/步骤/优缺点重组信息，禁止线性罗列帖子
生成 polished 综合报告，嵌入关键图片作为分析支撑

显著优点

1. 反爬突破能力：Playwright headed 模式是目前稳定访问小红书的技术方案之一，成功率远高于传统爬虫
2. 多模态完整性：同时捕获文本语义与视觉信息，适合时尚、美妆、教程等强视觉依赖领域的研究
3. 智能信息提纯：AI 主动筛选评论价值，合并多元观点，避免信息过载
4. 结构化输出：最终报告按逻辑主题组织，便于决策参考而非原始数据堆砌

潜在缺点与局限性

人工介入点：遇登录验证时需用户手动操作浏览器窗口完成认证
资源开销： headed 浏览器+图像下载+AI视觉解析，时间与计算成本较高
平台政策风险：违反小红书ToS，存在账号/设备封禁可能，需合规评估使用场景
动态内容时效性：采集为快照，热门话题的实时变化可能未被捕获

适合人群

市场研究员/品牌方：竞品分析、舆情监测、KOL内容策略研究
内容创作者：选题挖掘、爆款结构分析、视觉风格参考
产品经理：用户体验研究、功能使用场景调研（如示例中的OpenClaw工具场景）
学术研究者：中文社交媒体多模态内容分析

常规风险

| 风险类型 | 等级 | 说明 |

|---------|------|------|

| 平台合规风险 | ⚠️ 高 | 明确违反小红书服务条款，企业用户需法律评估 |

| 数据隐私风险 | ⚠️ 中 | 采集用户UGC内容需脱敏处理，避免个人信息泄露 |

| 技术稳定性 | ⚠️ 中 | 反爬策略升级可能导致脚本失效，需持续维护 |

| 登录依赖 | ℹ️ 低 | 首次或频繁使用后可能触发登录挑战，需人工介入 |

social-media web-scraping multi-modal market-research playwright content-analysis china-platform

Xiaohongshu Search Summarizer 内容

scripts文件夹

手动下载zip · 6.0 kB

parse.pytext/plain

请选择文件