Instagram Scraper

📸 反检测浏览器采集网红数据

数据采集榜 #6

Playwright 驱动的 Instagram 数据采集工具,支持 Google API 发现博主与反检测浏览器抓取,用于网红营销数据分析。

收藏
13.8k
安装
3.1k
版本
1.0.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

该技能提供双阶段 Instagram 数据采集系统:发现阶段通过 Google Custom Search API 按地理位置和品类搜索博主;采集阶段使用 Playwright 浏览器自动化模拟真实用户行为,抓取公开档案数据。支持 JSON/CSV 导出、缩略图下载、断点续传及智能过滤(自动跳过私密账号、低粉丝量账号)。

显著优点

  • 双层发现机制:Google API 挖掘 + 浏览器深度抓取,覆盖范围广
  • 反检测体系:浏览器指纹轮换、人类行为模拟、 stealth 脚本隐藏自动化特征
  • 结构化输出:自动分级网红层级(nano/micro/mid/macro/mega),含粉丝数、互动率、内容缩略图
  • 工程化设计:断点续传、队列管理、重复去重,适合批量长期运行

潜在缺点与局限性

  • 依赖平台稳定性:Instagram 频繁更新反爬策略,可能导致登录验证、滑块验证或封号
  • 数据完整性受限:私密账号无法抓取; Stories/Reels 等动态内容需额外处理
  • 速率瓶颈:为规避检测需引入随机延迟,大规模采集效率受限
  • 合规灰色地带:违反 Instagram ToS,存在账号封禁与法律风险

适合人群

  • 网红营销机构(MCN):批量发现垂直领域 KOL 并建立数据库
  • 品牌方市场团队:竞品博主分析与投放前调研
  • 数据分析师:社交媒体趋势研究与受众画像构建

常规风险

  • 账号风险:Instagram 账号可能因异常登录/操作频率触发安全验证或永久封禁
  • IP 声誉风险:同一 IP 高频访问可能导致 IP 被列入黑名单
  • 数据隐私风险:采集的个人信息(头像、简介)需符合 GDPR/CCPA 等地域法规
  • 依赖风险:Google API 有调用配额限制,Playwright 依赖 Chromium 环境,部署复杂度较高

Instagram Scraper 内容

config文件夹
手动下载zip · 20.6 kB
scraper_config.jsonapplication/json
请选择文件