使用说明

核心用法

该技能提供双阶段 Instagram 数据采集系统：发现阶段通过 Google Custom Search API 按地理位置和品类搜索博主；采集阶段使用 Playwright 浏览器自动化模拟真实用户行为，抓取公开档案数据。支持 JSON/CSV 导出、缩略图下载、断点续传及智能过滤（自动跳过私密账号、低粉丝量账号）。

显著优点

双层发现机制：Google API 挖掘 + 浏览器深度抓取，覆盖范围广
反检测体系：浏览器指纹轮换、人类行为模拟、 stealth 脚本隐藏自动化特征
结构化输出：自动分级网红层级（nano/micro/mid/macro/mega），含粉丝数、互动率、内容缩略图
工程化设计：断点续传、队列管理、重复去重，适合批量长期运行

潜在缺点与局限性

依赖平台稳定性：Instagram 频繁更新反爬策略，可能导致登录验证、滑块验证或封号
数据完整性受限：私密账号无法抓取； Stories/Reels 等动态内容需额外处理
速率瓶颈：为规避检测需引入随机延迟，大规模采集效率受限
合规灰色地带：违反 Instagram ToS，存在账号封禁与法律风险

适合人群

网红营销机构（MCN）：批量发现垂直领域 KOL 并建立数据库
品牌方市场团队：竞品博主分析与投放前调研
数据分析师：社交媒体趋势研究与受众画像构建

常规风险

账号风险：Instagram 账号可能因异常登录/操作频率触发安全验证或永久封禁
IP 声誉风险：同一 IP 高频访问可能导致 IP 被列入黑名单
数据隐私风险：采集的个人信息（头像、简介）需符合 GDPR/CCPA 等地域法规
依赖风险：Google API 有调用配额限制，Playwright 依赖 Chromium 环境，部署复杂度较高

安全解读

核心用法

该Skill是一个基于Playwright的Instagram个人资料发现与抓取系统，采用双阶段架构：

1. 发现阶段：通过Google Custom Search API按地理位置和类别搜索Instagram账号
2. 抓取阶段：使用Playwright浏览器自动化登录并抓取公开资料数据

CLI支持发现(discover)、抓取(scrape)、列表(list)三种命令模式，输出JSON/CSV格式，含缩略图下载。Agent模式支持结构化JSON输出。

显著优点

完整的反检测体系：浏览器指纹旋转、WebGL/Canvas噪声注入、navigator属性伪造、人机行为模拟
断点续传机制：支持中断后恢复抓取会话
智能过滤：自动跳过私密账号、低粉丝账号、空账号及已抓取账号
分级标签：按粉丝数自动标注nano/micro/mid/macro/mega层级
本地存储完整：JSON/CSV导出+缩略图下载

潜在缺点与局限性

合规风险突出：

核心功能直接违反Instagram服务条款第4条（禁止自动化工具）和第10条（禁止数据挖掘）
未经用户同意抓取PII数据，GDPR/CCPA合规失败
使用反检测技术故意绕过平台防护机制

技术安全降级：

Chromium启动使用--no-sandbox和--disable-setuid-sandbox，沙盒隔离失效
依赖环境变量明文存储凭据，缺乏轮换机制
日志未脱敏，可能泄露敏感信息

运营依赖风险：

高度依赖Google API配额、Instagram账号存活状态
个人开发者维护（T3），无企业级SLA保障

适合人群

市场研究团队进行竞品公开账号分析（需法律评估）
品牌方做influencer营销初筛（建议仅用于公开商业账号）
技术研究者学习反检测与浏览器自动化（隔离环境）

不适合：缺乏合规审查能力的个人用户、需处理敏感数据的企业场景、对账号稳定性要求高的生产环境。

常规风险

账号封禁：Instagram检测后封禁登录账号及关联IP
法律追责：大规模抓取可能触发平台诉讼或监管处罚
数据泄露：本地存储的PII数据若管理不善造成二次泄露
供应链风险：Playwright/Chromium漏洞被恶意网页利用（因沙盒禁用）
版权争议：下载的图片内容可能涉及版权侵权

instagram scraping playwright social-media influencer-discovery anti-detection browser-automation

Instagram Scraper 内容

config文件夹

手动下载zip · 20.6 kB

scraper_config.jsonapplication/json

请选择文件