核心用法
本技能通过两阶段流程实现小红书内容自动化采集与智能分析:
阶段一:Subagent数据采集
- 使用
playwright-cli启动真实浏览器(headed mode),模拟人类用户行为规避反爬机制 - 自动推进图片轮播组件,加载懒加载的高分辨率图片
- 提取标题、正文、热门评论及全部图片资源
- 生成本地原始数据文档
raw_data.md及图片文件
阶段二:AI多模态合成
- 读取原始数据文件,使用视觉能力解析
.webp/.jpg图片内容 - 综合文本语义与视觉信息,按主题聚类重组(而非逐条罗列帖子)
- 嵌入关键图片作为分析论据,输出结构化研究报告
显著优点
- 反爬对抗能力强:真实浏览器模拟 + 人工介入登录验证机制,解决小红书404/封禁问题
- 多模态深度整合:图文评论三位一体分析,避免纯文本摘要的信息损失
- 智能降噪处理:自动过滤"私我"等低价值评论,保留多元观点与反方意见
- 主题化重组输出:突破线性罗列模式,按概念/步骤/优缺点等维度重构信息
潜在局限
- 依赖外部运行时:需预装
playwright-cli及 Python3 环境 - 人机协作瓶颈:遇到登录挑战时需用户手动介入浏览器窗口
- 法律边界风险:平台ToS通常禁止自动化抓取,存在账号封禁与合规争议
- 数据时效性:模拟操作速度受限,大规模采集效率低于API直连方案
适合人群
- 市场调研分析师(消费趋势/竞品洞察)
- 内容创作者(选题挖掘/爆款规律研究)
- 产品经理(用户反馈聚合/需求验证)
- 学术研究者(社交媒体话语分析)
常规风险
- 小红书账号可能因异常登录被风控锁定
- 图片版权归属需遵循平台及原作者授权
- 合成报告可能存在AI幻觉,关键结论需人工复核