核心用法
Amazon Scraper 是一款容器化爬虫工具,采用 playwright-extra 配合 Stealth 插件构建,专为绕过亚马逊反爬虫机制优化。用户通过 Docker 运行预构建镜像,根据目标 URL 自动选择 Amazon 专用模式或通用模式:
- Amazon 模式:自动识别畅销榜(
/zgbs/)、新品榜(/zg/new-releases/)、飙升榜(/zg/movers-and-shakers/)、搜索结果(/s?k=)、产品详情(/dp/)五种页面类型,输出结构化 JSON 数据 - 通用模式:提取任意动态网页的纯文本内容,上限 10,000 字符
关键操作规则:Best Sellers 页面不含月销量数据(boughtPastMonth),需通过搜索页或详情页获取;支持多页爬取(--pages 参数)。
显著优点
1. 反爬能力强:Stealth 插件自动抹除 headless 特征(navigator、WebGL、Canvas),配合 Chrome 120 UserAgent 和 1920×1080 视口,有效规避检测
2. 开箱即用:一键构建脚本 setup.sh 自动完成镜像构建和环境初始化
3. 数据字段丰富:产品详情页可提取 BSR、品牌、卖点、月销、上架时间等 10+ 维度
4. 沙箱隔离:Docker 容器每次启动全新浏览器上下文,降低封禁风险
5. 决策树清晰:内置完整的用户意图 → URL 构造 → 模式选择逻辑
潜在缺点与局限性
| 局限项 | 说明 |
|--------|------|
| 冷启动开销 | Docker 容器启动约 15 秒(含 Stealth 插件初始化) |
| 单页容量限制 | Amazon 单页最多 30-50 个产品,大规模采集需分页 |
| 登录屏障 | 不支持需要登录的页面(如 Amazon 后台、会员专属内容) |
| 通用模式截断 | 非 Amazon 网站仅提取前 10,000 字符,长文可能不完整 |
| 反爬对抗成本 | 亚马逊持续升级检测机制,Stealth 插件需跟进维护 |
适合人群
- 跨境电商卖家:选品调研、竞品分析、价格监控、BSR 追踪
- 市场分析师:品类机会挖掘、爆款识别、评分分布研究
- 数据工程师:需要结构化亚马逊数据的自动化采集场景
- 研究人员:快速抓取公开网页内容用于分析(需遵守 robots.txt 及 ToS)
常规风险
- 法律合规:爬取亚马逊数据需遵守其《服务条款》,频繁/大规模采集可能导致 IP 封禁或法律风险
- 数据准确性:
boughtPastMonth为亚马逊提供的区间估算值(如"1K+"),非精确销量 - 维护依赖:Playwright 和 Stealth 插件需随浏览器版本更新,长期不用可能失效
- 成本考量:持续运行 Docker 容器产生计算资源消耗,高频调用需评估云服务器成本