使用说明

核心功能

该技能提供两阶段 Instagram 数据采集系统：

发现阶段：基于地理位置和类别关键词搜索目标账号，支持 Google 自定义搜索 API 增强发现能力
采集阶段：使用 Playwright 进行全浏览器模拟，提取用户名、简介、粉丝数、帖子数据、互动率及缩略图

显著优势

1. 零 API 依赖：无需 Instagram API 密钥，通过浏览器自动化直接访问公开数据
2. 反检测机制：集成指纹伪装、行为模拟、隐身脚本，降低被封概率
3. 代理原生支持：内置 4 家住宅代理服务商（Bright Data、IProyal、Storm Proxies、NetNut），支持会话保持和 IP 轮换
4. 智能过滤：自动跳过私密账号、低粉丝账号、空账号及已采集账号
5. 断点续传：支持中断后恢复采集会话
6. 分层数据输出：按 nano/micro/mid/macro/mega 分级标记 KOL 层级

潜在局限与风险

| 风险类型 | 说明 |

|---------|------|

| **平台政策风险** | 违反 Instagram [使用条款](https://help.instagram.com/581066165581870) 第 4 条，可能导致 IP/账号封禁 |

| **法律合规** | 未经同意抓取个人数据可能违反 GDPR（欧盟）、CCPA（加州）等隐私法规 |

| **数据质量** | 依赖公开页面结构，Instagram UI 变更会导致采集失效 |

| **伦理争议** | 批量抓取创作者数据用于商业分析存在道德边界 |

| **代理成本** | 住宅代理按流量计费，大规模采集成本较高 |

适用人群

市场研究人员与 KOL 营销机构
品牌方进行竞品账号分析
数据科学团队构建社交媒体数据集
不适合：个人用户日常浏览、小规模一次性需求

常规使用建议

始终配合住宅代理运行，避免裸 IP 直连
设置合理的请求间隔（建议 ≥5 秒/账号）
仅采集公开数据，不尝试绕过隐私设置
定期备份配置与队列文件，防止任务丢失
关注 Instagram 前端更新，及时升级适配

instagram social-media web-scraping influencer-marketing playwright proxy-rotation kols-discovery anti-detection

Instagram Scraper 内容

手动下载zip · 4.7 kB

SKILL.mdtext/markdown

请选择文件