使用说明

核心用法

Instagram Profile Scraper 采用双阶段架构：第一阶段通过 Google Custom Search API 按地理位置与行业标签批量发现目标账号；第二阶段使用 Playwright 驱动 Chromium 模拟真实浏览器行为，抓取公开资料、粉丝数据、互动指标及缩略图。CLI 支持交互式与批量模式，输出 JSON/CSV 双格式，并内置队列系统实现断点续传。

显著优点

反检测体系完整：轮换浏览器指纹（User-Agent、屏幕尺寸、字体列表）、模拟随机鼠标轨迹与滚动节奏、注入 stealth 脚本隐藏 webdriver 痕迹
智能过滤机制：自动跳过私密账号、低粉（<1K）、空号及重复目标，减少无效请求
分级标签自动化：按粉丝量自动标注 nano/micro/mid/macro/mega 五级网红层级
会话持久化：登录态与抓取进度本地保存，支持中断后恢复

潜在缺点与局限

依赖平台对抗：Instagram 反爬策略持续升级，指纹与行为模拟需频繁维护
成本与合规风险：需自备 Google API 配额及 Instagram 账号池；批量爬取可能触发平台限制或法律争议
数据完整性受限：私密账号完全不可见，部分公开账号也可能限制非登录浏览
缩略图存储开销：开启图片下载后，磁盘占用随目标量线性增长

适合人群

海外网红营销机构（MCN、品牌出海团队）
社媒舆情监测与竞品分析从业者
需构建垂直领域 KOL 数据库的研究人员

常规风险

账号封禁：Instagram 登录账号可能因异常行为被临时锁定或永久停用
API 配额耗尽：Google Custom Search 每日免费额度有限（通常 100 次查询），大规模采集需付费升级
隐私与 GDPR：抓取欧盟用户数据需评估合规性，存储生物特征（头像）可能触发肖像权问题
依赖链风险：Playwright 与 Chromium 版本绑定，环境配置不当易导致启动失败

安全解读

核心用法

该 Skill 提供双阶段 Instagram 数据采集系统：

1. 账号发现阶段 - 通过 Google Custom Search API 按地理位置和分类搜索 Instagram 账号，生成待抓取队列文件

2. 浏览器抓取阶段 - 使用 Playwright 启动 Chromium 浏览器，模拟真实用户登录 Instagram，自动提取目标账号的公开资料数据

主要功能包括：

批量发现特定城市/领域的 Instagram 博主
自动过滤私密账号、低粉丝账号、空账号
下载用户头像和内容缩略图到本地
导出 JSON/CSV 格式的结构化数据
断点续传支持中断后恢复抓取

显著优点

技术实现完整：代码结构清晰，使用 asyncio 异步处理，模块化设计良好
反检测能力较强：集成浏览器指纹轮换、人类行为模拟、隐身脚本注入等多层规避技术
数据输出丰富：支持按网红分级（nano/micro/mid/macro/mega）自动分类，包含粉丝数、互动数据、图片等多维度信息
依赖安全可靠：Playwright、aiohttp、Pillow 等均为知名开源库，无已知 CVE 漏洞

潜在缺点与局限性

法律合规风险（致命）：

明确违反 Instagram 服务条款第4条"禁止使用自动化手段访问服务"
抓取社交媒体用户数据严重违背 GDPR 数据最小化原则和用户知情同意要求
下载用户生成内容涉及版权和隐私争议

运营风险：

账号封禁风险高，依赖的 Instagram 凭证可能随时失效
反检测技术虽能延缓检测，但无法保证长期稳定运行
平台算法更新可能导致规避策略失效

功能局限：

需用户提供真实 Instagram 账号密码，存在凭证泄露风险
仅支持 Chromium 浏览器，内存占用较高
engagement 数据提取速度较慢

适合人群

谨慎评估后可能适用：

具备法律风险评估能力的数字营销研究机构
已建立合规数据使用流程的企业情报部门
用于个人学习浏览器自动化技术的开发者

明确不适合：

无平台授权的商业数据采买业务
对个人用户进行大规模画像分析的场景
缺乏数据保护能力的个人用户

常规风险

| 风险类别 | 严重程度 | 说明 |

|---------|---------|------|

| 平台 ToS 违规 | 🔴 极高 | 可能导致法律追责和账号永久封禁 |

| 隐私合规 | 🔴 极高 | GDPR/CCPA 违规风险，涉及用户数据权利 |

| 凭证安全 | 🟠 高 | 需保管 Instagram/Google API 凭证 |

| 数据泄露 | 🟠 高 | 本地存储的用户图片可能被不当使用 |

| 浏览器安全 | 🟠 高 | 使用 `--no-sandbox` 降低沙箱保护 |

| 运营中断 | 🟡 中 | 反爬虫对抗导致的持续性维护成本 |

使用建议：优先考虑迁移至 Instagram Graph API 官方接口，若必须使用本工具，应限定于小规模、短期、非商业用途，并建立完整的数据删除机制。

instagram web-scraping playwright influencer-marketing social-media-intelligence anti-detection data-collection

Instagram Scraper 内容

config文件夹

手动下载zip · 19.9 kB

scraper_config.jsonapplication/json

请选择文件