Xiaohongshu Search Summarizer

🔍 小红书多模态研究助手

数据采集与分析榜 #1

基于真实浏览器模拟的小红书多模态内容抓取与深度分析工具,可提取图文及评论并生成结构化研究报告。

收藏
9.4k
安装
3.3k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

本技能通过两阶段流程实现小红书内容自动化采集与智能分析:

阶段一:Subagent数据采集

  • 使用 playwright-cli 启动真实浏览器(headed mode),模拟人类用户行为规避反爬机制
  • 自动推进图片轮播组件,加载懒加载的高分辨率图片
  • 提取标题、正文、热门评论及全部图片资源
  • 生成本地原始数据文档 raw_data.md 及图片文件

阶段二:AI多模态合成

  • 读取原始数据文件,使用视觉能力解析 .webp/.jpg 图片内容
  • 综合文本语义与视觉信息,按主题聚类重组(而非逐条罗列帖子)
  • 嵌入关键图片作为分析论据,输出结构化研究报告

显著优点

  • 反爬对抗能力强:真实浏览器模拟 + 人工介入登录验证机制,解决小红书404/封禁问题
  • 多模态深度整合:图文评论三位一体分析,避免纯文本摘要的信息损失
  • 智能降噪处理:自动过滤"私我"等低价值评论,保留多元观点与反方意见
  • 主题化重组输出:突破线性罗列模式,按概念/步骤/优缺点等维度重构信息

潜在局限

  • 依赖外部运行时:需预装 playwright-cli 及 Python3 环境
  • 人机协作瓶颈:遇到登录挑战时需用户手动介入浏览器窗口
  • 法律边界风险:平台ToS通常禁止自动化抓取,存在账号封禁与合规争议
  • 数据时效性:模拟操作速度受限,大规模采集效率低于API直连方案

适合人群

  • 市场调研分析师(消费趋势/竞品洞察)
  • 内容创作者(选题挖掘/爆款规律研究)
  • 产品经理(用户反馈聚合/需求验证)
  • 学术研究者(社交媒体话语分析)

常规风险

  • 小红书账号可能因异常登录被风控锁定
  • 图片版权归属需遵循平台及原作者授权
  • 合成报告可能存在AI幻觉,关键结论需人工复核

Xiaohongshu Search Summarizer 内容

scripts文件夹
手动下载zip · 6.0 kB
parse.pytext/plain
请选择文件