使用说明

核心用法

该 Skill 采用双阶段架构：先通过 Google Custom Search API 按地理位置和行业分类批量发现 Instagram 账号，再使用 Playwright 浏览器引擎模拟真人操作完成深度爬取。支持 CLI 交互式/批处理双模式，输出 JSON/CSV 双格式，内置断点续传与去重机制。

显著优点

反检测能力强：集成浏览器指纹混淆、人类行为模拟与隐身脚本，降低被封概率
数据维度完整：抓取粉丝数、互动率、内容缩略图、分级标签（nano→mega）等营销关键指标
工程化设计：队列管理、自动过滤（私密账号/低粉丝/空账号）、增量续爬，适合规模化作业
多场景适配：既支持研究人员批量采集，也提供 JSON 接口供 Agent 集成调用

潜在缺点与局限

依赖官方账号：必须使用真实 Instagram 账号登录，存在账号受限/验证风险
Google API 门槛：发现功能依赖付费/限额的 Google Custom Search API，免费额度有限
法律合规风险：违反 Instagram Robots.txt 及 ToS，商业使用可能触发平台诉讼或 API 封禁
维护成本高：前端改版需同步更新选择器，Instagram 反爬策略持续升级

适合人群

市场研究员与品牌方进行竞品红人矩阵分析
MCN 机构批量筛选潜力签约账号
数据科学家获取社交媒体公开指标用于学术建模（需伦理审查）

常规风险

账号层：登录触发二次验证/临时冻结；高频操作导致永久封禁
数据层：爬取结果受限于账号可见性，私密内容无法获取
法律层：欧盟 GDPR、美国 CFAA 等法规下，大规模爬取个人资料存在合规争议

安全解读

核心用法

本 Skill 提供基于 Playwright 的 Instagram 两阶段采集系统：

阶段一：Profile Discovery（资料发现）

通过 Google Custom Search API 按地理位置与行业分类批量检索公开 Instagram 账号
支持交互式/命令行/Batch 三种模式，输出待采集队列文件

阶段二：Browser Scraping（浏览器采集）

使用 Chromium 全浏览器模拟登录 Instagram，规避传统 API 限制
采集字段：用户名、真实姓名、简介、粉丝/关注数、帖子数、认证状态、头像及内容缩略图、单帖互动数据（点赞/评论）
自动过滤：私密账号、<1,000 粉丝、零帖子、已采集账号（去重）
支持断点续采、导出 JSON/CSV

技术栈

Python 3 + Playwright（Chromium）
浏览器指纹混淆、人类行为模拟、隐身脚本
环境变量：Google API Key/Search Engine ID、Instagram 账号密码

显著优点

| 维度 | 说明 |

|:---|:---|

| 数据完整性 | 浏览器模拟可获取前端渲染后的完整数据，优于传统 HTTP 请求 |

| 反检测能力 | 内置指纹混淆与行为模拟，降低被封禁概率 |

| 灵活筛选 | 按 Nano/Micro/Mid/Macro/Mega 五级 KOL 分层自动分类 |

| 断点续传 | 中断后可从队列文件恢复，适合大规模采集 |

| 成本低廉 | 无需购买官方 API 额度，个人账号即可运行 |

潜在缺点与局限性

合规风险（关键）

自动化爬虫明确违反 Instagram ToS，账号封禁概率高，严重时面临法律追责
未提供平台条款风险提示，用户自担后果

技术门槛

需自行部署 Python 环境、安装 Chromium、配置 API 凭证，非开箱即用
Skill 本身仅为 Markdown 文档，无实际可执行代码

数据质量

依赖平台前端结构，DOM 变更即导致失效
高频率采集易触发速率限制

隐私缺失

无数据使用政策说明，未声明 GDPR/CCPA 合规性
采集范围涵盖他人肖像、互动数据，存在隐私争议

适合人群

市场研究人员：需批量获取公开 KOL 数据用于行业分析
品牌运营方：寻找特定地区/领域的潜在合作达人
合规意识强的技术团队：具备评估平台条款风险能力，有隔离测试环境

不适合：无法承担账号封禁风险的个人用户、对数据合规有严格要求的商业场景

常规风险

| 风险类型 | 等级 | 说明 |

|:---|:---|:---|

| 平台合规 | ⚠️ 高 | 违反 Instagram ToS，账号永久封禁 |

| 凭证泄露 | ⚠️ 高 | 需明文存储账号密码，.env 文件管理不当即泄露 |

| 隐私合规 | ⚠️ 中 | 采集他人数据无授权机制，GDPR/CCPA 违规 |

| 来源可信度 | ⚠️ 中 | T3 个人开发者，未经安全审计 |

| 数据安全 | ⚠️ 低 | 无可执行代码，实际风险取决于用户自行部署的 Python 脚本 |

> 安全认证评分 64/100（Grade B），隐私合规模块仅 35 分（fail），建议仅用于隔离环境测试，禁止在生产账号使用。

instagram scraping social-media influencer-discovery automation playwright data-collection

Instagram Scraper 内容

手动下载zip · 2.7 kB

SKILL.mdtext/markdown

请选择文件