Amazon Scraper

🕷️ 亚马逊数据采集与竞品分析利器

数据采集榜 #18

专业级 Docker 容器化爬虫,基于 Playwright 和 Crawlee 实现亚马逊 BSR、月销量、竞品数据的高效采集,同时支持通用动态网页抓取。

收藏
5.8k
安装
2.3k
版本
3.3.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能

Amazon Scraper 是一个基于 Docker 容器化的高性能爬虫系统,专为亚马逊数据采集优化,同时支持通用动态网页抓取。技术栈采用 Crawlee + Playwright,能够模拟真实浏览器行为,处理 JavaScript 动态渲染页面。

三大模式

1. Amazon 畅销榜模式/zgbs/):抓取品类 Top 排名、评分、评论数,适合选品调研和市场概览。注意:榜单页不包含月销量数据

2. Amazon 搜索/详情模式:通过搜索 URL(/s?k=)或产品详情页(/dp/)获取 boughtPastMonth 月销量数据,是竞品分析和销量验证的核心工具。

3. 通用模式main_handler.js):支持任意动态网页的纯文本提取,输出上限 10,000 字符,适合内容摘要和非 Amazon 网站的数据采集。

显著优势

  • 反爬设计完善:每次请求清除 Cookie、Docker 沙箱隔离、Playwright 模拟真实浏览器行为,配合自动重试机制
  • 字段覆盖全面:产品详情页可获取 BSR、品牌、卖点、类目、上架时间等 15+ 字段
  • 架构轻量:单容器部署,一键构建脚本降低使用门槛
  • 多页支持:可通过 --pages 参数实现分页爬取

局限性与风险

  • Amazon 数据约束:月销量仅存在于搜索页和详情页,榜单页缺失;单页最多 30-50 条产品,大规模采集需分页
  • 技术门槛:依赖 Docker 环境(~2GB 磁盘 + 2GB 内存),容器冷启动约 10 秒
  • 合规边界:不支持登录态页面,需遵守目标网站 robots.txt 和 rate limit
  • 输出限制:通用模式 10,000 字符上限,长文需分段处理

适用人群

  • 电商运营/选品人员:调研品类机会、验证竞品销量、分析价格带
  • 数据分析师:获取结构化 Amazon 数据用于市场研究
  • 产品经理:跟踪新品趋势、监控飙升榜单
  • 开发者:需要轻量级、可部署的爬虫基础设施

常规风险提示

| 风险类型 | 说明 |
|---------|------|
| 法律合规 | 需遵守 Amazon 服务条款,禁止用于大规模商业监控 |
| 数据准确性 | 月销量为区间估算(如 "1K+"),非精确数值 |
| 稳定性 | 目标网站结构变更可能导致字段解析失败 |
| 频率控制 | 建议合理控制请求频率,避免 IP 受限 |

Amazon Scraper 内容

assets文件夹
scripts文件夹
手动下载zip · 9.0 kB
amazon_handler.jstext/javascript
请选择文件