Amazon Scraper

🕷️ 亚马逊选品数据采集专家

数据采集榜 #10

Docker容器化亚马逊数据爬虫,支持Best Sellers榜单、搜索结果、产品详情抓取,内置反爬策略,专为跨境电商选品与竞品分析设计。

收藏
10.2k
安装
2.3k
版本
3.2.0
CLS 安全性认证2026-05-16
点击查看完整报告 >

使用说明

核心用法

Amazon Scraper 是基于 Docker + Crawlee + Playwright 的高性能容器化爬虫,专为亚马逊数据采集场景深度优化,同时兼容通用动态网页爬取。

三大抓取模式:

1. Best Sellers 畅销榜模式/zgbs//bestsellers/):获取品类 Top 100 排名数据,包含 rank、title、asin、price、rating、reviews 等字段。注意:榜单页不提供月销量数据。

2. 搜索结果模式/s?k=):关键词搜索页抓取,支持获取 boughtPastMonth(月销量)、sponsored 标识等关键选品指标。

3. 产品详情模式/dp//gp/product/):单 ASIN 深度分析,字段最全,包含 BSR 排名、品牌、卖点 bullets、上架时间、类目路径等。

智能决策逻辑:系统自动识别 URL 类型分配对应 handler,无 URL 时根据用户意图构造目标链接(如"蓝牙耳机畅销榜"→构造 /zgbs/electronics)。

显著优点

  • 专业电商数据覆盖:精准解析 Amazon BSR、月销标签、评分分布等核心业务指标,直接服务选品决策
  • 反爬机制完善:Cookie 隔离、Docker 沙箱、Playwright 真实浏览器模拟、自动重试,稳定性优于普通脚本
  • 开箱即用:一键 setup.sh 完成环境构建,无需手动配置 Node.js/Playwright 依赖
  • 双模式架构:Amazon 专用模式 + 通用网页模式,兼顾专业场景与灵活扩展

潜在缺点与局限性

  • 数据完整性限制:Best Sellers 页与月销量数据互斥,需组合爬取;单页产品数上限 30-50 条
  • 冷启动开销:Docker 容器启动约 10 秒,不适合极高频即时调用
  • 登录墙无法突破:不支持需要 Amazon 账号登录的页面(如 Buy Box 后台数据、订单信息)
  • 通用模式截断:非 Amazon 站点仅输出 body.innerText,上限 10000 字符,复杂页面信息损失较大

适合人群

  • 亚马逊卖家/运营:日常监控竞品排名、价格变动、Review 增长
  • 跨境电商选品人员:通过 BSR + 月销量分析品类机会、验证产品需求
  • 市场研究人员:批量采集类目数据做价格带分析、竞品矩阵梳理
  • 数据分析师:获取结构化 Amazon 数据用于后续建模或可视化

常规风险

| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| 反爬封禁 | Amazon 可能临时拦截 IP 或返回验证码 | 已内置重试与浏览器模拟;高频率操作建议配合代理 |
| 数据时效性 | 榜单/价格实时变动,抓取结果为快照 | 明确标注 scrapedAt 时间戳,建议高频监控场景定时任务 |
| 合规风险 | 需遵守 Amazon robots.txt 及当地数据法规 | 仅用于公开商品信息采集,禁止爬取用户隐私/评论者信息 |
| Docker 环境依赖 | 本地无 Docker 则无法运行 | 首次使用前确认 `docker --version` 并执行 setup.sh |

---

技术栈:Node.js + Crawlee + Playwright + Docker
输出格式:结构化 JSON,便于程序化解析入库

安全解读

核心用法

Amazon Scraper 是一款基于 Docker + Crawlee + Playwright 的容器化网页爬虫工具,提供两种运行模式:

1. Amazon 专精模式 (amazon_handler.js):自动识别亚马逊页面类型

  • 畅销榜 (/zgbs//bestsellers/):获取排名、ASIN、价格、评分、评论数
  • 新品榜 (/zg/new-releases/)、飙升榜 (/zg/movers-and-shakers/)
  • 搜索结果 (/s?k=):支持 月销量(boughtPastMonth) 提取,含赞助商品标记
  • 产品详情 (/dp//gp/product/):最全字段,含BSR、品牌、卖点、类目、上架时间

2. 通用网页模式 (main_handler.js):任意动态网页纯文本提取,输出上限10,000字符

关键数据规则:Best Sellers页面不提供月销量数据——需通过搜索页或详情页获取。

显著优点

  • 容器化隔离:Docker沙箱运行,每次清除Cookie,无指纹追踪风险
  • 反爬能力:Playwright模拟真实浏览器行为,自动滚动加载懒加载内容
  • 智能路由:根据URL自动识别页面类型,无需手动选择
  • 多页支持:通过 --pages 参数实现翻页爬取
  • 结构化输出:JSON格式,含爬取时间戳、品类名、数据总量等元信息

潜在缺点与局限性

  • 数据限制:单页最多30-50个产品;通用模式输出上限10,000字符
  • 功能边界:不支持需登录页面;不支持直接导出Excel/CSV
  • 性能成本:Docker冷启动约10秒;内存建议2GB+
  • 输入验证:URL格式校验较宽松,无效URL可能导致失败

适合人群

  • 亚马逊卖家/运营:选品调研、竞品分析、品类机会挖掘
  • 电商数据分析师:价格带分析、评分分布统计、review趋势追踪
  • 市场研究人员:畅销榜监控、新品追踪、飙升榜预警
  • 需通用网页文本提取的技术用户

常规风险

| 风险项 | 说明 | 缓解措施 |
|--------|------|----------|
| 亚马逊反爬封禁 | 高频请求可能触发IP限制 | 控制请求频率,避免多页并发 |
| 页面结构变更 | 亚马逊DOM更新导致解析失败 | 关注版本更新,预留维护窗口 |
| Docker权限需求 | 需本地Docker环境及~2GB磁盘 | 确保可信环境运行,隔离生产系统 |
| 数据合规 | 抓取公开商品数据本身合法,但需遵守平台ToS | 仅用于内部分析,勿大规模商业转售 |

Amazon Scraper 内容

assets文件夹
scripts文件夹
手动下载zip · 8.9 kB
amazon_handler.jstext/javascript
请选择文件