核心用法
Amazon Scraper 是面向电商数据采集的容器化爬虫方案,基于 playwright-extra + Stealth 插件构建,专为绕过亚马逊反爬检测优化。系统提供两种工作模式:
Amazon模式
自动识别三类页面并提取差异化字段:
- 畅销榜/新品榜/飙升榜 (
/gp/bestsellers/等):获取排名、ASIN、价格、评分等,但不含月销量 - 搜索结果页 (
/s?k=): 包含关键字段 boughtPastMonth(月销量),支持 sponsored 标记识别 - 产品详情页 (
/dp/ASIN): 最全数据覆盖,含BSR、品牌、卖点 bullets、上架时间、类目等
通用模式
支持任意动态网页的纯文本提取,自动等待JS渲染,输出上限10000字符。
显著优点
- 开箱即用: 一键
setup.sh构建镜像,Docker隔离无需配置本地浏览器 - 反爬能力强: Stealth插件深度修改headless指纹,配合代理轮询有效分散请求
- 数据字段完整: 针对电商场景优化,支持月销量、BSR等亚马逊特有指标
- 多代理容错: 支持单代理或多代理轮询,自动故障切换
潜在局限
- 冷启动开销: 容器启动约15秒(含浏览器初始化)
- 单页容量有限: Amazon单页约30-50产品,大量数据需分页爬取
- 登录态不支持: 无法采集需要登录的页面(如亚马逊后台)
- 反爬对抗风险: 亚马逊检测策略持续升级,高频率爬取仍可能触发验证
适合人群
跨境电商运营、亚马逊卖家、选品分析师、市场研究人员、竞品调研团队
常规风险
- 高频爬取可能导致IP被封,需配合代理池使用
- 数据采集需遵守目标网站ToS及当地法律法规
- Docker镜像占用约2GB磁盘空间