Instagram Scraper

📸 智能反检测 Instagram 数据采集引擎

社交媒体与营销榜 #1

基于 Playwright 的 Instagram 爬虫工具,集成 Google 搜索 API 发现账号,具备反检测指纹伪装、人形行为模拟及断点续传功能,适用于网红营销挖掘与社媒数据分析。

收藏
7.3k
安装
3.1k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Instagram Profile Scraper 采用双阶段架构:第一阶段通过 Google Custom Search API 按地理位置与行业标签批量发现目标账号;第二阶段使用 Playwright 驱动 Chromium 模拟真实浏览器行为,抓取公开资料、粉丝数据、互动指标及缩略图。CLI 支持交互式与批量模式,输出 JSON/CSV 双格式,并内置队列系统实现断点续传。

显著优点

  • 反检测体系完整:轮换浏览器指纹(User-Agent、屏幕尺寸、字体列表)、模拟随机鼠标轨迹与滚动节奏、注入 stealth 脚本隐藏 webdriver 痕迹
  • 智能过滤机制:自动跳过私密账号、低粉(<1K)、空号及重复目标,减少无效请求
  • 分级标签自动化:按粉丝量自动标注 nano/micro/mid/macro/mega 五级网红层级
  • 会话持久化:登录态与抓取进度本地保存,支持中断后恢复

潜在缺点与局限

  • 依赖平台对抗:Instagram 反爬策略持续升级,指纹与行为模拟需频繁维护
  • 成本与合规风险:需自备 Google API 配额及 Instagram 账号池;批量爬取可能触发平台限制或法律争议
  • 数据完整性受限:私密账号完全不可见,部分公开账号也可能限制非登录浏览
  • 缩略图存储开销:开启图片下载后,磁盘占用随目标量线性增长

适合人群

  • 海外网红营销机构(MCN、品牌出海团队)
  • 社媒舆情监测与竞品分析从业者
  • 需构建垂直领域 KOL 数据库的研究人员

常规风险

  • 账号封禁:Instagram 登录账号可能因异常行为被临时锁定或永久停用
  • API 配额耗尽:Google Custom Search 每日免费额度有限(通常 100 次查询),大规模采集需付费升级
  • 隐私与 GDPR:抓取欧盟用户数据需评估合规性,存储生物特征(头像)可能触发肖像权问题
  • 依赖链风险:Playwright 与 Chromium 版本绑定,环境配置不当易导致启动失败

Instagram Scraper 内容

config文件夹
手动下载zip · 19.9 kB
scraper_config.jsonapplication/json
请选择文件