Amazon Scraper

🕷️ Amazon专业爬虫 · 绕过检测 · 选品利器

数据采集榜 #18

Docker化Amazon专业爬虫,基于Playwright Stealth绕过反爬,支持BSR榜单、搜索页、产品详情抓取及通用网页采集

收藏
6.5k
安装
2.3k
版本
3.4.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Amazon Scraper 是面向电商数据采集的容器化爬虫方案,基于 playwright-extra + Stealth 插件构建,专为绕过亚马逊反爬检测优化。系统提供两种工作模式:

Amazon模式

自动识别三类页面并提取差异化字段:

  • 畅销榜/新品榜/飙升榜 (/gp/bestsellers/等):获取排名、ASIN、价格、评分等,但不含月销量
  • 搜索结果页 (/s?k=): 包含关键字段 boughtPastMonth(月销量),支持 sponsored 标记识别
  • 产品详情页 (/dp/ASIN): 最全数据覆盖,含BSR、品牌、卖点 bullets、上架时间、类目等

通用模式

支持任意动态网页的纯文本提取,自动等待JS渲染,输出上限10000字符。

显著优点

  • 开箱即用: 一键 setup.sh 构建镜像,Docker隔离无需配置本地浏览器
  • 反爬能力强: Stealth插件深度修改headless指纹,配合代理轮询有效分散请求
  • 数据字段完整: 针对电商场景优化,支持月销量、BSR等亚马逊特有指标
  • 多代理容错: 支持单代理或多代理轮询,自动故障切换

潜在局限

  • 冷启动开销: 容器启动约15秒(含浏览器初始化)
  • 单页容量有限: Amazon单页约30-50产品,大量数据需分页爬取
  • 登录态不支持: 无法采集需要登录的页面(如亚马逊后台)
  • 反爬对抗风险: 亚马逊检测策略持续升级,高频率爬取仍可能触发验证

适合人群

跨境电商运营、亚马逊卖家、选品分析师、市场研究人员、竞品调研团队

常规风险

  • 高频爬取可能导致IP被封,需配合代理池使用
  • 数据采集需遵守目标网站ToS及当地法律法规
  • Docker镜像占用约2GB磁盘空间

Amazon Scraper 内容

assets文件夹
scripts文件夹
手动下载zip · 12.6 kB
amazon_handler.jstext/javascript
请选择文件