使用说明

核心用法

本技能通过两阶段流程实现小红书内容自动化采集与智能分析：

阶段一：Subagent数据采集

使用 playwright-cli 启动真实浏览器（headed mode），模拟人类用户行为规避反爬机制
自动推进图片轮播组件，加载懒加载的高分辨率图片
提取标题、正文、热门评论及全部图片资源
生成本地原始数据文档 raw_data.md 及图片文件

阶段二：AI多模态合成

读取原始数据文件，使用视觉能力解析 .webp/.jpg 图片内容
综合文本语义与视觉信息，按主题聚类重组（而非逐条罗列帖子）
嵌入关键图片作为分析论据，输出结构化研究报告

显著优点

反爬对抗能力强：真实浏览器模拟 + 人工介入登录验证机制，解决小红书404/封禁问题
多模态深度整合：图文评论三位一体分析，避免纯文本摘要的信息损失
智能降噪处理：自动过滤"私我"等低价值评论，保留多元观点与反方意见
主题化重组输出：突破线性罗列模式，按概念/步骤/优缺点等维度重构信息

潜在局限

依赖外部运行时：需预装 playwright-cli 及 Python3 环境
人机协作瓶颈：遇到登录挑战时需用户手动介入浏览器窗口
法律边界风险：平台ToS通常禁止自动化抓取，存在账号封禁与合规争议
数据时效性：模拟操作速度受限，大规模采集效率低于API直连方案

适合人群

市场调研分析师（消费趋势/竞品洞察）
内容创作者（选题挖掘/爆款规律研究）
产品经理（用户反馈聚合/需求验证）
学术研究者（社交媒体话语分析）

常规风险

小红书账号可能因异常登录被风控锁定
图片版权归属需遵循平台及原作者授权
合成报告可能存在AI幻觉，关键结论需人工复核

安全解读

核心用法

该 Skill 是一个小红书（Xiaohongshu）内容爬取与智能摘要工具，分为两个核心阶段运行：

Phase 1：数据采集 — 通过 playwright-cli 启动有头浏览器，模拟真实用户搜索指定关键词，自动处理图片懒加载，提取帖子标题、正文、热门评论及高清图片，保存为原始数据文件 [keyword]_raw_data.md。

Phase 2：AI 综合分析 — 调用方需读取原始数据及图片文件，进行多模态理解（文本 + 视觉），最终生成结构化的综合分析报告，而非简单罗列帖子。

调用方式：

/bin/bash <skill_dir>/scripts/run.sh "搜索关键词" [最大帖子数] [输出目录]

显著优点

1. 反爬对抗能力：采用 Playwright 有头浏览器模拟，有效绕过小红书的 404 拦截和反爬机制，稳定性优于直接 HTTP 请求。
2. 多模态数据采集：同时捕获文本、评论、图片三种内容形态，支持高清图片批量下载，为后续视觉分析提供素材。
3. 智能摘要架构：设计上明确区分"原始数据提取"与"AI 智能 synthesis"两个阶段，避免简单数据堆砌，强调主题聚合与观点融合。
4. 开放输出格式：生成标准 Markdown 文件，便于二次加工和报告整合。

潜在缺点与局限性

1. 依赖外部登录：小红书可能弹出登录验证，需用户人工介入完成认证，自动化程度受限。
2. 无内置速率控制：当前实现未明确限制爬取频率，存在 IP 被封禁风险，需用户自行把控。
3. T3 来源可信度：维护者为个人开发者，无公开 GitHub 仓库，社区验证和长期维护存在不确定性。
4. 隐私合规空白：未实现 GDPR 删除机制，虽爬取公开内容，但大规模数据采集仍可能触及平台服务条款边界。

适合人群

市场研究人员：需要批量分析小红书上的竞品口碑、用户反馈、流行趋势
内容创作者：研究热门话题、视觉风格、文案套路，辅助选题与创作
产品经理：收集真实用户场景与痛点，进行需求验证与功能调研
学术研究者：社交媒体分析、消费行为研究等需要多模态数据的场景

常规风险

| 风险类别 | 等级 | 说明 |

|---------|------|------|

| 外部网络请求 | 中 | 访问 xiaohongshu.com 及 CDN，HTTPS 加密，目标平台知名度高 |

| 子进程执行 | 中 | 调用 `playwright-cli` 执行动态生成的 JavaScript 代码 |

| 文件系统操作 | 低 | 创建输出目录、下载图片、写入临时文件，路径由用户指定 |

| 来源可信度 | 信息 | T3 级个人开发者，无公开代码托管，建议人工审查 |

安全等级 B：功能明确、无恶意代码，但涉及外部命令执行和网络爬取，建议在隔离环境中运行，控制爬取频率，遵守平台服务条款。

web-scraping social-media multi-modal browser-automation xiao-hong-shu research-assistant anti-detection

Xiaohongshu Search Summarizer 内容

scripts文件夹

手动下载zip · 6.0 kB

parse.pytext/plain

请选择文件