使用说明

核心用法

该技能提供两阶段 Instagram 数据采集流程：Profile Discovery（发现）与 Browser Scraping（爬取）。发现阶段通过 Google Custom Search API 按地理位置和类目检索目标账号；爬取阶段使用 Playwright 模拟真实浏览器行为，获取公开资料页的粉丝数、互动数据、头像及内容缩略图。支持 JSON/CSV 导出、断点续传、自动去重与多层级网红分级（nano 到 mega）。

显著优点

零 API 依赖：无需 Instagram 官方 API Key，绕过调用限额与权限审核；
反检测能力：集成浏览器指纹伪装、人类行为模拟及 stealth 脚本，降低被封概率；
灵活代理支持：内置 Bright Data、IProyal 等 4 家住宅代理配置，支持会话保持与 IP 轮换，适配大规模长时间爬取；
自动化过滤：自动跳过私密账号、低粉账号、空号及已采集账号，减少无效请求；
结构化输出：标准化 influencer_tier 分级与 engagement 数据，便于后续分析。

潜在缺点与局限性

法律与合规风险：未经平台授权的自动化数据采集可能违反 Instagram ToS 及部分地区数据保护法规（如 GDPR）；
账号封禁风险：即使使用住宅代理，高频操作仍可能触发风控导致登录凭证失效；
数据完整性受限：私密账号、被屏蔽内容无法获取；图片/视频缩略图下载占用本地存储；
依赖外部服务：Google Custom Search API 需单独申请配额，存在调用成本与限速；
维护成本：平台前端结构变更（HTML/CSS 选择器）需及时更新选择器逻辑。

适合人群

市场营销团队进行网红资源挖掘与竞品监控；
数据分析师构建社交媒体趋势数据库；
中小品牌主无预算购买官方 API 时的替代方案。

常规风险

IP/账号封禁：未配置代理或配置不当将导致快速拉黑；
数据隐私纠纷：采集用户公开资料仍可能面临肖像权或数据合规投诉；
代理费用：住宅代理按流量计费，大规模采集成本不可忽视；
技术门槛：需配置 Python 环境、Chromium 浏览器及代理参数，非技术用户上手成本较高。

instagram web-scraping social-media-intelligence influencer-marketing playwright residential-proxy competitive-intelligence

Instagram Scraper 内容

手动下载zip · 4.7 kB

SKILL.mdtext/markdown

请选择文件