使用说明

核心用法

Instagram Profile Scraper 采用两阶段架构：发现阶段通过 Google Custom Search API 按地理位置（如 Miami）和品类（如 fitness）批量挖掘账号；采集阶段使用 Playwright 启动真实 Chromium 浏览器，模拟人类行为获取完整画像数据，包括粉丝数、互动率、内容缩略图等。输出支持 JSON/CSV 格式，自动跳过私密账号、低粉账号及空账号。

显著优点

零 API 依赖：纯浏览器模拟，绕过 Instagram 官方 API 的频率与权限限制
企业级反检测：内置浏览器指纹混淆、行为模拟脚本、住宅代理集成（支持 Bright Data 等 4 家供应商），宣称 95%+ 成功率
断点续传：队列持久化与去重机制，适合数小时至数天的长周期任务
分层筛选：自动按 nano/micro/mid/macro/mega 五级网红分层，便于精准营销定位
代理灵活配置：支持环境变量注入、粘性会话保持、按国家定向，适配多账号并发场景

潜在缺点与局限性

法律合规风险：明确违反 Instagram robots.txt 及使用条款，存在账号封禁与诉讼风险
平台对抗性：Instagram 持续升级反爬虫策略，工具需频繁更新维护；当前版本依赖特定选择器，可能因页面改版失效
成本门槛：大规模采集必须购买住宅代理（$5-15/GB 起步），否则 IP 迅速被封
数据完整性：私密账号、被限制账号无法采集；互动数据为公开可见值，非真实后台数据
Google API 依赖：发现阶段依赖 Google Custom Search，存在每日 100 次免费配额限制

适合人群

品牌方与 MCN 机构：批量筛选特定区域/品类的网红资源
竞品分析团队：监控对手合作达人矩阵
数据研究团队：社交媒体趋势分析（需合规审查）

常规风险

| 风险类型 | 等级 | 说明 |

|---------|------|------|

| 法律风险 | 高 | 违反平台 ToS，部分司法管辖区（如欧盟 GDPR 场景）可能触发额外合规问题 |

| 账号/封禁风险 | 高 | 被检测后可能导致 Instagram 账号封禁、IP 拉黑，甚至关联设备标记 |

| 数据准确性 | 中 | 公开数据存在延迟，粉丝数可能缓存数小时至数天 |

| 供应商锁定 | 中 | 深度集成特定代理供应商，迁移成本较高 |

> 使用建议：仅限内部研究用途，避免商业转售抓取数据；优先使用官方 Instagram Basic Display API 获取授权数据。

安全解读

核心用法

本 Skill 是一份纯 Markdown 文档（T-MD 分类），无实际可执行代码，主要提供 Instagram 个人资料爬虫的配置指南和使用说明。核心流程分为两阶段：

1. Profile Discovery（资料发现）：通过 Google Custom Search API 按地理位置和分类搜索 Instagram 账号
2. Browser Scraping（浏览器抓取）：使用 Python + Playwright 模拟真实浏览器行为，采集公开资料数据

支持的功能包括：浏览器指纹伪装、人机行为模拟、住宅代理集成、断点续传、自动过滤（私密账号/低粉账号/空账号）、JSON/CSV 导出等。

显著优点

纯文档零风险：无可执行代码，无恶意代码注入、凭证窃取或权限升级风险
配置清晰完整：提供详细的代理配置、Google API 配置、输出格式说明
反检测机制全面：内置浏览器指纹伪装、住宅代理支持（4 家供应商）、人机行为模拟
实用功能丰富：支持断点续传、并发控制、智能过滤、缩略图下载
分层数据输出：按 nano/micro/mid/macro/mega 分级标注 KOL 层级

潜在缺点与局限性

| 问题 | 说明 |

|------|------|

| **法律合规风险** | Instagram 服务条款明确禁止自动化抓取，存在账号封禁和法律追责风险 |

| **隐私合规缺失** | 未提供数据保留/删除策略说明，可能违反 GDPR 等法规 |

| **联盟营销未标注** | 代理服务商推广链接含返利参数（`?r=ScrapeClaw`），未明确告知用户 |

| **无代码可审计** | 仅提供文档，实际实现代码未开源，无法验证安全声明 |

| **依赖外部服务** | 需自备 Google API Key、住宅代理（付费）、Chromium 环境 |

| **T3 来源可信度** | 个人开发者/社区项目，无企业背书，无 GitHub 仓库链接验证 |

适合人群

已了解爬虫法律风险并愿意自担责任的技术用户
需要批量采集 Instagram KOL 数据进行市场研究的企业（需确保合规授权）
具备 Python + Playwright 环境配置能力的开发者

常规风险

1. 平台封禁风险：Instagram 可能封禁代理 IP 和关联账号
2. 数据法律风险：抓取用户数据可能违反 GDPR、CCPA 等隐私法规
3. 代理费用风险：住宅代理按流量计费，大规模采集成本较高
4. 联盟营销误导：推广链接可能引导至非最优价格方案

安全认证摘要

评分：A 级（90/100）
信任等级：T3（个人开发者/社区项目）
关键发现：2 处低风险（联盟营销链接）+ 1 处中风险（数据采集合规）
静态分析：通过（纯 Markdown，无危险函数）
隐私检查：警告（无明确数据保留策略）

instagram scraping social-media influencer-discovery playwright proxy-rotation anti-detection

Instagram Scraper 内容

手动下载zip · 4.7 kB

SKILL.mdtext/markdown

请选择文件