Amazon Scraper

🕷️ 绕过反爬的亚马逊数据采集专家

data榜 #5

基于 Docker + Playwright Stealth 的容器化亚马逊爬虫,可绕过反爬检测获取 BSR 榜单、搜索月销、产品详情等数据,同时支持通用动态网页抓取。

收藏
5.5k
安装
2.3k
版本
3.3.3
CLS 安全性认证2026-05-18
点击查看完整报告 >

使用说明

核心能力

Amazon Scraper 是一款专为电商数据分析设计的容器化爬虫工具,采用 playwright-extra + Stealth 插件技术栈,核心能力包括:

1. 亚马逊深度数据抓取

  • 畅销榜(BSR):爬取 /zgbs/ 各品类 Top 100 排名、价格、评分、评论数
  • 新品榜/飙升榜:追踪 /zg/new-releases//zg/movers-and-shakers/ 趋势
  • 搜索页:获取关键词搜索结果,含关键字段「boughtPastMonth」(月销量)
  • 产品详情页:提取 ASIN、品牌、BSR、卖点、上架时间、完整评论分析等全量字段

2. 智能模式识别
自动根据 URL 特征切换抓取策略,无需手动配置;同时支持非亚马逊网站的通用动态页面抓取。

3. 反爬对抗

  • Stealth 插件自动抹除 headless 特征(navigator、WebGL、Canvas)
  • 模拟 Chrome 120 真实浏览器指纹 + 1920×1080 视口
  • Docker 沙箱隔离,每次启动全新浏览器上下文

显著优点

  • 数据维度全:唯一同时支持「排名+月销量+详情」的亚马逊开源方案
  • 绕过检测率高:Stealth 插件针对 Amazon 反爬策略专项优化
  • 部署零依赖:单 Docker 镜像封装,一键 bash scripts/setup.sh 启动
  • 场景覆盖广:选品调研、竞品监控、价格追踪、市场趋势分析均可支撑

潜在缺点与局限

  • 冷启动开销:Docker 容器启动约 15 秒(含浏览器初始化)
  • 单页容量限制:Amazon 单页约 30-50 个产品,大量数据需多页分页
  • 登录壁垒:不支持需登录的页面(如 Amazon Business、Vine 评论)
  • 通用模式截断:非亚马逊站点输出上限 10,000 字符
  • 合规灰色地带:爬取频率过高可能触发 IP 限制,需自行控制并发

适合人群

  • 亚马逊 FBA/FBM 卖家及运营团队
  • 电商选品分析师、市场调研员
  • 竞品监控工具开发者
  • 需要批量获取电商公开数据的商业分析师

常规风险

  • 法律合规:需遵守 Amazon robots.txt 及当地数据保护法规,建议仅用于公开数据
  • IP 封禁:高频率请求可能导致 IP 被限,建议配合代理池使用
  • 数据时效:月销量「boughtPastMonth」为模糊区间(如 1K+),非精确值
  • 页面结构变更:Amazon 前端改版可能导致选择器失效,需持续维护

安全解读

核心功能

Amazon Scraper 是一款面向电商数据分析场景的专用爬虫工具,采用 Docker 容器化部署,基于 playwright-extraStealth 插件构建,核心定位是解决 Amazon 反爬检测绕过问题,同时兼容通用动态网页抓取。

主要能力

  • Amazon 专用模式:智能识别 URL 类型,自动切换采集策略
  • 畅销榜(/zgbs/):获取排名、ASIN、价格、评分、评论数
  • 新品榜(/new-releases/)、飙升榜(/movers-and-shakers/):追踪趋势
  • 搜索结果(/s?k=):支持 boughtPastMonth 月销量字段,含赞助商品标识
  • 产品详情(/dp/):最全字段,含 BSR、品牌、卖点、上架时间、类目等
  • 通用网页模式:任意动态页面抓取,提取正文文本(10,000 字符上限)

显著优点

1. 反爬能力强:自动修改 navigator、WebGL、Canvas、UserAgent 等 headless 特征,模拟 1920×1080 Windows Chrome 120 环境
2. 数据价值高:专为选品场景设计,月销量与 BSR 数据对跨境电商决策关键

3. 隔离安全:Docker 沙箱运行,每次启动全新浏览器上下文,无持久化污染

4. 多页支持:支持 --pages 2 参数连续翻页采集

5. 开箱即用:一键构建脚本 setup.sh 自动配置环境

潜在缺点与局限

  • 冷启动延迟:Docker 容器启动约 15 秒(含 Stealth 插件初始化)
  • 数据完整性限制:Best Sellers 页面本身不展示月销量,需配合搜索页或详情页补全
  • 单页容量有限:Amazon 单页约 30-50 个产品,大规模采集需多次运行
  • 认证壁垒:不支持需登录的页面,无法获取购物车、Prime 专属价等数据
  • 通用模式截断:输出上限 10,000 字符,长文内容可能不完整

适合人群

  • 亚马逊卖家/运营:选品调研、竞品监控、价格追踪
  • 跨境电商分析师:市场趋势分析、品类机会挖掘
  • 电商数据服务商:批量采集公开商品数据构建数据集

常规风险

  • 合规边界:使用 Stealth 插件绕过检测虽为声明功能,但需关注目标网站 ToS 与 robots.txt 合规性
  • URL 输入风险:通用模式接受任意 URL,存在 file:// 协议或内网地址潜在风险(建议部署时加固)
  • 稳定性依赖:Amazon 页面结构变更可能导致解析失败,需持续维护

技术架构

  • 运行时:Docker Engine 20.10+
  • 资源需求:~2GB 磁盘、2GB+ 内存
  • 输出格式:结构化 JSON,含采集时间戳与状态标识

Amazon Scraper 内容

assets文件夹
scripts文件夹
手动下载zip · 9.1 kB
amazon_handler.jstext/javascript
请选择文件