Instagram Scraper

📸 智能采集 Instagram 红人数据

数据采集榜 #5

基于浏览器自动化模拟真实用户行为的 Instagram 红人数据采集工具,支持定位/分类发现、反检测爬取与多格式导出,适合市场研究与网红营销场景。

收藏
12.8k
安装
3.1k
版本
1.0.2
CLS 安全性认证2026-06-23
点击查看完整报告 >

使用说明

核心用法

该 Skill 采用双阶段架构:先通过 Google Custom Search API 按地理位置和行业分类批量发现 Instagram 账号,再使用 Playwright 浏览器引擎模拟真人操作完成深度爬取。支持 CLI 交互式/批处理双模式,输出 JSON/CSV 双格式,内置断点续传与去重机制。

显著优点

  • 反检测能力强:集成浏览器指纹混淆、人类行为模拟与隐身脚本,降低被封概率
  • 数据维度完整:抓取粉丝数、互动率、内容缩略图、分级标签(nano→mega)等营销关键指标
  • 工程化设计:队列管理、自动过滤(私密账号/低粉丝/空账号)、增量续爬,适合规模化作业
  • 多场景适配:既支持研究人员批量采集,也提供 JSON 接口供 Agent 集成调用

潜在缺点与局限

  • 依赖官方账号:必须使用真实 Instagram 账号登录,存在账号受限/验证风险
  • Google API 门槛:发现功能依赖付费/限额的 Google Custom Search API,免费额度有限
  • 法律合规风险:违反 Instagram Robots.txtToS,商业使用可能触发平台诉讼或 API 封禁
  • 维护成本高:前端改版需同步更新选择器,Instagram 反爬策略持续升级

适合人群

  • 市场研究员与品牌方进行竞品红人矩阵分析
  • MCN 机构批量筛选潜力签约账号
  • 数据科学家获取社交媒体公开指标用于学术建模(需伦理审查)

常规风险

  • 账号层:登录触发二次验证/临时冻结;高频操作导致永久封禁
  • 数据层:爬取结果受限于账号可见性,私密内容无法获取
  • 法律层:欧盟 GDPR、美国 CFAA 等法规下,大规模爬取个人资料存在合规争议

安全解读

核心用法

本 Skill 提供基于 Playwright 的 Instagram 两阶段采集系统:

阶段一:Profile Discovery(资料发现)

  • 通过 Google Custom Search API 按地理位置与行业分类批量检索公开 Instagram 账号
  • 支持交互式/命令行/Batch 三种模式,输出待采集队列文件

阶段二:Browser Scraping(浏览器采集)

  • 使用 Chromium 全浏览器模拟登录 Instagram,规避传统 API 限制
  • 采集字段:用户名、真实姓名、简介、粉丝/关注数、帖子数、认证状态、头像及内容缩略图、单帖互动数据(点赞/评论)
  • 自动过滤:私密账号、<1,000 粉丝、零帖子、已采集账号(去重)
  • 支持断点续采、导出 JSON/CSV

技术栈

  • Python 3 + Playwright(Chromium)
  • 浏览器指纹混淆、人类行为模拟、隐身脚本
  • 环境变量:Google API Key/Search Engine ID、Instagram 账号密码

显著优点

| 维度 | 说明 |
|:---|:---|
| 数据完整性 | 浏览器模拟可获取前端渲染后的完整数据,优于传统 HTTP 请求 |
| 反检测能力 | 内置指纹混淆与行为模拟,降低被封禁概率 |
| 灵活筛选 | 按 Nano/Micro/Mid/Macro/Mega 五级 KOL 分层自动分类 |
| 断点续传 | 中断后可从队列文件恢复,适合大规模采集 |
| 成本低廉 | 无需购买官方 API 额度,个人账号即可运行 |

潜在缺点与局限性

合规风险(关键)

  • 自动化爬虫明确违反 Instagram ToS,账号封禁概率高,严重时面临法律追责
  • 未提供平台条款风险提示,用户自担后果

技术门槛

  • 需自行部署 Python 环境、安装 Chromium、配置 API 凭证,非开箱即用
  • Skill 本身仅为 Markdown 文档,无实际可执行代码

数据质量

  • 依赖平台前端结构,DOM 变更即导致失效
  • 高频率采集易触发速率限制

隐私缺失

  • 无数据使用政策说明,未声明 GDPR/CCPA 合规性
  • 采集范围涵盖他人肖像、互动数据,存在隐私争议

适合人群

  • 市场研究人员:需批量获取公开 KOL 数据用于行业分析
  • 品牌运营方:寻找特定地区/领域的潜在合作达人
  • 合规意识强的技术团队:具备评估平台条款风险能力,有隔离测试环境

不适合:无法承担账号封禁风险的个人用户、对数据合规有严格要求的商业场景

常规风险

| 风险类型 | 等级 | 说明 |
|:---|:---|:---|
| 平台合规 | ⚠️ 高 | 违反 Instagram ToS,账号永久封禁 |
| 凭证泄露 | ⚠️ 高 | 需明文存储账号密码,.env 文件管理不当即泄露 |
| 隐私合规 | ⚠️ 中 | 采集他人数据无授权机制,GDPR/CCPA 违规 |
| 来源可信度 | ⚠️ 中 | T3 个人开发者,未经安全审计 |
| 数据安全 | ⚠️ 低 | 无可执行代码,实际风险取决于用户自行部署的 Python 脚本 |

> 安全认证评分 64/100(Grade B),隐私合规模块仅 35 分(fail),建议仅用于隔离环境测试,禁止在生产账号使用。

Instagram Scraper 内容

手动下载zip · 2.7 kB
SKILL.mdtext/markdown
请选择文件