skills/jiafar/Amazon Scraper

Amazon Scraper

🕷️ Amazon专业爬虫 · 绕过检测 · 选品利器

数据采集榜 #10

Docker化Amazon专业爬虫，基于Playwright Stealth绕过反爬，支持BSR榜单、搜索页、产品详情抓取及通用网页采集

收藏

6.5k

安装

2.3k

版本

3.4.0

CLS 安全扫描中

预计需要 3 分钟...

使用说明

核心用法

Amazon Scraper 是面向电商数据采集的容器化爬虫方案，基于 playwright-extra + Stealth 插件构建，专为绕过亚马逊反爬检测优化。系统提供两种工作模式：

Amazon模式

自动识别三类页面并提取差异化字段：

畅销榜/新品榜/飙升榜 (/gp/bestsellers/等)：获取排名、ASIN、价格、评分等，但不含月销量
搜索结果页 (/s?k=): 包含关键字段 boughtPastMonth（月销量），支持 sponsored 标记识别
产品详情页 (/dp/ASIN): 最全数据覆盖，含BSR、品牌、卖点 bullets、上架时间、类目等

通用模式

支持任意动态网页的纯文本提取，自动等待JS渲染，输出上限10000字符。

显著优点

开箱即用: 一键 setup.sh 构建镜像，Docker隔离无需配置本地浏览器
反爬能力强: Stealth插件深度修改headless指纹，配合代理轮询有效分散请求
数据字段完整: 针对电商场景优化，支持月销量、BSR等亚马逊特有指标
多代理容错: 支持单代理或多代理轮询，自动故障切换

潜在局限

冷启动开销: 容器启动约15秒（含浏览器初始化）
单页容量有限: Amazon单页约30-50产品，大量数据需分页爬取
登录态不支持: 无法采集需要登录的页面（如亚马逊后台）
反爬对抗风险: 亚马逊检测策略持续升级，高频率爬取仍可能触发验证

适合人群

跨境电商运营、亚马逊卖家、选品分析师、市场研究人员、竞品调研团队

常规风险

高频爬取可能导致IP被封，需配合代理池使用
数据采集需遵守目标网站ToS及当地法律法规
Docker镜像占用约2GB磁盘空间

web-scraping amazon ecommerce playwright docker product-research competitor-analysis headless-browser proxy-rotation bsr-rankings

Amazon Scraper 内容

assets文件夹

scripts文件夹

手动下载zip · 12.6 kB

amazon_handler.jstext/javascript

请选择文件