Instagram Scraper

📸 浏览器级 Instagram 网红发现与采集

基于 Playwright 的浏览器级 Instagram 数据采集工具,支持按地理位置与品类发现网红账号,无需 API 密钥,内置代理轮换与反检测机制。

收藏
8.1k
安装
3.1k
版本
1.0.7
CLS 安全性认证2026-06-03
点击查看完整报告 >

使用说明

核心用法

Instagram Profile Scraper 采用两阶段架构:发现阶段通过 Google Custom Search API 按地理位置(如 Miami)和品类(如 fitness)批量挖掘账号;采集阶段使用 Playwright 启动真实 Chromium 浏览器,模拟人类行为获取完整画像数据,包括粉丝数、互动率、内容缩略图等。输出支持 JSON/CSV 格式,自动跳过私密账号、低粉账号及空账号。

显著优点

  • 零 API 依赖:纯浏览器模拟,绕过 Instagram 官方 API 的频率与权限限制
  • 企业级反检测:内置浏览器指纹混淆、行为模拟脚本、住宅代理集成(支持 Bright Data 等 4 家供应商),宣称 95%+ 成功率
  • 断点续传:队列持久化与去重机制,适合数小时至数天的长周期任务
  • 分层筛选:自动按 nano/micro/mid/macro/mega 五级网红分层,便于精准营销定位
  • 代理灵活配置:支持环境变量注入、粘性会话保持、按国家定向,适配多账号并发场景

潜在缺点与局限性

  • 法律合规风险:明确违反 Instagram robots.txt使用条款,存在账号封禁与诉讼风险
  • 平台对抗性:Instagram 持续升级反爬虫策略,工具需频繁更新维护;当前版本依赖特定选择器,可能因页面改版失效
  • 成本门槛:大规模采集必须购买住宅代理($5-15/GB 起步),否则 IP 迅速被封
  • 数据完整性:私密账号、被限制账号无法采集;互动数据为公开可见值,非真实后台数据
  • Google API 依赖:发现阶段依赖 Google Custom Search,存在每日 100 次免费配额限制

适合人群

  • 品牌方与 MCN 机构:批量筛选特定区域/品类的网红资源
  • 竞品分析团队:监控对手合作达人矩阵
  • 数据研究团队:社交媒体趋势分析(需合规审查)

常规风险

| 风险类型 | 等级 | 说明 |
|---------|------|------|
| 法律风险 | 高 | 违反平台 ToS,部分司法管辖区(如欧盟 GDPR 场景)可能触发额外合规问题 |
| 账号/封禁风险 | 高 | 被检测后可能导致 Instagram 账号封禁、IP 拉黑,甚至关联设备标记 |
| 数据准确性 | 中 | 公开数据存在延迟,粉丝数可能缓存数小时至数天 |
| 供应商锁定 | 中 | 深度集成特定代理供应商,迁移成本较高 |

> 使用建议:仅限内部研究用途,避免商业转售抓取数据;优先使用官方 Instagram Basic Display API 获取授权数据。

安全解读

核心用法

本 Skill 是一份纯 Markdown 文档(T-MD 分类),无实际可执行代码,主要提供 Instagram 个人资料爬虫的配置指南和使用说明。核心流程分为两阶段:

1. Profile Discovery(资料发现):通过 Google Custom Search API 按地理位置和分类搜索 Instagram 账号
2. Browser Scraping(浏览器抓取):使用 Python + Playwright 模拟真实浏览器行为,采集公开资料数据

支持的功能包括:浏览器指纹伪装、人机行为模拟、住宅代理集成、断点续传、自动过滤(私密账号/低粉账号/空账号)、JSON/CSV 导出等。

显著优点

  • 纯文档零风险:无可执行代码,无恶意代码注入、凭证窃取或权限升级风险
  • 配置清晰完整:提供详细的代理配置、Google API 配置、输出格式说明
  • 反检测机制全面:内置浏览器指纹伪装、住宅代理支持(4 家供应商)、人机行为模拟
  • 实用功能丰富:支持断点续传、并发控制、智能过滤、缩略图下载
  • 分层数据输出:按 nano/micro/mid/macro/mega 分级标注 KOL 层级

潜在缺点与局限性

| 问题 | 说明 |
|------|------|
| **法律合规风险** | Instagram 服务条款明确禁止自动化抓取,存在账号封禁和法律追责风险 |
| **隐私合规缺失** | 未提供数据保留/删除策略说明,可能违反 GDPR 等法规 |
| **联盟营销未标注** | 代理服务商推广链接含返利参数(`?r=ScrapeClaw`),未明确告知用户 |
| **无代码可审计** | 仅提供文档,实际实现代码未开源,无法验证安全声明 |
| **依赖外部服务** | 需自备 Google API Key、住宅代理(付费)、Chromium 环境 |
| **T3 来源可信度** | 个人开发者/社区项目,无企业背书,无 GitHub 仓库链接验证 |

适合人群

  • 已了解爬虫法律风险并愿意自担责任的技术用户
  • 需要批量采集 Instagram KOL 数据进行市场研究的企业(需确保合规授权)
  • 具备 Python + Playwright 环境配置能力的开发者

常规风险

1. 平台封禁风险:Instagram 可能封禁代理 IP 和关联账号
2. 数据法律风险:抓取用户数据可能违反 GDPR、CCPA 等隐私法规

3. 代理费用风险:住宅代理按流量计费,大规模采集成本较高

4. 联盟营销误导:推广链接可能引导至非最优价格方案

安全认证摘要

  • 评分:A 级(90/100)
  • 信任等级:T3(个人开发者/社区项目)
  • 关键发现:2 处低风险(联盟营销链接)+ 1 处中风险(数据采集合规)
  • 静态分析:通过(纯 Markdown,无危险函数)
  • 隐私检查:警告(无明确数据保留策略)

Instagram Scraper 内容

手动下载zip · 4.7 kB
SKILL.mdtext/markdown
请选择文件