Amazon Scraper

🕷️ 智能反爬亚马逊数据采集器

data-collection榜 #2

Docker化亚马逊爬虫,基于Playwright Stealth技术绕过反爬检测,支持畅销榜、搜索页、产品详情等多场景数据采集,适用于选品调研与竞品分析。

收藏
11.4k
安装
2.3k
版本
3.3.2
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能

Amazon Scraper 是一款专为亚马逊电商数据抓取而优化的容器化爬虫工具,采用 playwright-extra + Stealth 插件组合,通过修改浏览器指纹特征(navigator、WebGL、Canvas、UserAgent 等)有效绕过亚马逊针对 headless 浏览器的反爬检测机制。

技术架构

  • 容器化部署:基于 Docker 构建,实现环境隔离与可复现性
  • 双模式设计amazon_handler.js 专注亚马逊多场景解析,main_handler.js 支持通用动态网页抓取
  • 智能页面识别:自动根据 URL 特征判断页面类型(畅销榜、新品榜、飙升榜、搜索结果、产品详情)

数据获取能力

| 场景 | 关键字段 | 典型用途 |
|------|---------|---------|
| Best Sellers(畅销榜) | rank, title, ASIN, price, rating, reviews | 类目排名分析、爆款挖掘 |
| Search Results(搜索页) | title, ASIN, price, rating, **boughtPastMonth**, sponsored | 月销量评估、竞品监控 |
| Product Detail(详情页) | title, ASIN, price, BSR, brand, bullets, details, **boughtPastMonth** | 深度竞品分析、listing 优化 |

关键限制:Best Sellers 页面不包含月销量数据,需配合搜索页或详情页获取 boughtPastMonth 字段。

显著优势

1. 反爬能力成熟:Stealth 插件 + Chrome 120 模拟 + 1920×1080 视口,显著降低封禁概率
2. 开箱即用:一键构建脚本 setup.sh 自动完成镜像构建与输出目录配置

3. 数据结构化:统一 JSON 输出,包含元数据(状态、类型、采集时间、产品总数)

4. 多页爬取支持:通过 --pages 参数实现批量采集

局限与风险

  • 数据覆盖限制:单页约 30-50 个产品,大量数据需分页多次采集
  • 登录隔离:不支持需要登录的页面(如买家账户订单、卖家后台)
  • 冷启动延迟:Docker 容器启动约 15 秒(含浏览器与插件初始化)
  • 通用模式截断:非亚马逊网站内容上限 10,000 字符
  • 合规风险:需遵守亚马逊 robots.txt 及服务条款,频繁高频爬取可能触发 IP 限制或法律风险

适用人群

  • 亚马逊卖家:选品调研、竞品监控、品类机会分析
  • 电商运营:市场调研、爆款追踪、价格策略制定
  • 数据分析师:电商数据聚合、趋势研究、自动化报表

安全考量

工具本身为中性技术组件,安全性取决于使用方式。建议控制爬取频率、尊重目标网站规则,并确保数据用途符合当地法律法规。

Amazon Scraper 内容

assets文件夹
scripts文件夹
手动下载zip · 9.1 kB
amazon_handler.jstext/javascript
请选择文件