核心用法
该 Skill 采用双阶段架构:先通过 Google Custom Search API 按地理位置和行业分类批量发现 Instagram 账号,再使用 Playwright 浏览器引擎模拟真人操作完成深度爬取。支持 CLI 交互式/批处理双模式,输出 JSON/CSV 双格式,内置断点续传与去重机制。
显著优点
- 反检测能力强:集成浏览器指纹混淆、人类行为模拟与隐身脚本,降低被封概率
- 数据维度完整:抓取粉丝数、互动率、内容缩略图、分级标签(nano→mega)等营销关键指标
- 工程化设计:队列管理、自动过滤(私密账号/低粉丝/空账号)、增量续爬,适合规模化作业
- 多场景适配:既支持研究人员批量采集,也提供 JSON 接口供 Agent 集成调用
潜在缺点与局限
- 依赖官方账号:必须使用真实 Instagram 账号登录,存在账号受限/验证风险
- Google API 门槛:发现功能依赖付费/限额的 Google Custom Search API,免费额度有限
- 法律合规风险:违反 Instagram Robots.txt 及 ToS,商业使用可能触发平台诉讼或 API 封禁
- 维护成本高:前端改版需同步更新选择器,Instagram 反爬策略持续升级
适合人群
- 市场研究员与品牌方进行竞品红人矩阵分析
- MCN 机构批量筛选潜力签约账号
- 数据科学家获取社交媒体公开指标用于学术建模(需伦理审查)
常规风险
- 账号层:登录触发二次验证/临时冻结;高频操作导致永久封禁
- 数据层:爬取结果受限于账号可见性,私密内容无法获取
- 法律层:欧盟 GDPR、美国 CFAA 等法规下,大规模爬取个人资料存在合规争议