使用说明

核心用法

该技能采用双阶段架构：首先通过Google Custom Search API或内置发现引擎按地理位置（如Miami、New York）和行业类别（如fitness、fashion）批量检索Instagram账号；第二阶段启动Chromium浏览器实例，模拟真实用户行为完成登录、页面渲染及数据提取。支持CLI命令和JSON接口两种调用模式，输出包含用户名、简介、粉丝数、关注数、发帖量、认证状态、网红等级分级（nano/micro/mid/macro/mega）、地理位置、头像及内容缩略图本地路径、单帖互动数据等完整字段。

显著优点

真人级反检测：集成浏览器指纹伪装、人类行为模拟及隐身脚本，降低被平台识别为自动化工具的风险
断点续爬：支持中断后恢复，队列文件持久化存储待处理账号
智能过滤：自动跳过私密账号、低粉账号（默认<1000）、空账号及已爬取账号，提升有效数据产出比
灵活导出：支持JSON/CSV双格式，缩略图本地化存储便于离线分析
分级体系：内置网红等级自动分类，便于快速筛选目标合作对象

潜在缺点与局限性

平台依赖风险：依赖Instagram网页版DOM结构，平台UI更新可能导致解析失效
账号消耗问题：需真实Instagram账号登录，高频操作易触发风控（验证码、临时限制甚至封禁）
API配额成本：Google Custom Search API调用需付费，大规模采集成本累积显著
数据完整性：私密账号、被限制账号无法获取任何数据； Stories/Reels等动态内容未纳入采集范围
法律合规灰色地带：未经授权批量抓取社交平台数据在部分司法管辖区存在法律争议

适合人群

数字营销机构及品牌方：用于网红资源池搭建与影响力评估
市场研究人员：分析特定区域/行业的社交媒体生态
竞品分析团队：监测对手合作的KOL矩阵
数据产品经理：构建网红营销SaaS的数据底层

常规风险

| 风险类型 | 具体表现 | 缓释建议 |

|---------|---------|---------|

| 账号安全 | Instagram账号被限制功能或永久封禁 | 使用备用账号池，控制单账号日操作量，避免高峰时段集中请求 |

| 数据质量 | 页面改版导致解析失败、返回空值 | 定期检查DOM选择器有效性，启用数据完整性校验 |

| 法律合规 | 违反平台ToS及潜在数据保护法规 | 仅采集公开数据，遵守 robots.txt 精神，敏感地区咨询法务 |

| 成本失控 | Google API调用量超预算 | 启用配额监控，本地缓存搜索结果，复用历史数据 |

| 隐私泄露 | 采集的缩略图、个人简介本地存储不当 | 加密存储敏感目录，设定自动清理策略，最小化保留周期 |

安全解读

核心功能

Instagram Profile Scraper 是一套浏览器驱动的 Instagram 数据采集系统，采用「发现-抓取」双阶段架构：

Profile Discovery（发现阶段）：通过 Google Custom Search API 按地理位置（如 Miami、New York）和垂直领域（如 fitness、fashion）检索潜在红人账号
Browser Scraping（抓取阶段）：调用 Chromium 浏览器模拟真人行为，采集公开资料、粉丝数、互动数据、缩略图等

显著优点

1. 反检测机制完善：集成浏览器指纹随机化、人类行为模拟、隐身脚本，降低被 Instagram 风控拦截的概率
2. 数据结构化程度高：自动分类 nano/micro/mid/macro/mega 五级红人层级，输出标准 JSON/CSV 格式
3. 容错与效率优化：支持断点续传、自动跳过私密账号/低粉账号/空账号、去重机制避免重复采集
4. 可配置过滤规则：最小粉丝数、缩略图下载数量、无头模式等均可自定义

潜在局限与风险

1. 依赖外部运行环境：需本地安装 Python3 + Chromium，Skill 本身仅为文档封装，不封装运行时代码
2. T3 来源可信度：作者为个人开发者 "influenza"，无组织背书、无开源协议声明，需自行审计外部脚本
3. 平台合规灰色地带：Instagram ToS 明确禁止自动化抓取，存在账号封禁、IP 限流甚至法律风险
4. 凭证安全负担：需配置 Instagram 账号密码及 Google API Key，存在凭证泄露与滥用风险
5. 数据完整性受限：私密账号无法采集，Stories/Reels 等动态内容不支持，互动数据仅为公开可见部分

适合人群

品牌营销团队进行红人市场调研与竞品分析
数据分析师需要结构化社交媒体数据集
有技术背景、能自主部署浏览器环境的用户

常规风险提示

建议启用双因素认证并使用专用 Instagram 账号
Google API Key 应通过环境变量注入，禁止硬编码
首次运行建议在隔离环境监控 Chromium 网络行为
遵守目标司法管辖区数据保护法规（GDPR/CCPA 等）

instagram social-media-scraping influencer-marketing web-automation data-collection brand-intelligence browser-automation

Instagram Scraper 内容

手动下载zip · 2.3 kB

SKILL.mdtext/markdown

请选择文件