Amazon Scraper

🕷️ 亚马逊数据采集专家,选品调研利器

数据采集榜 #10

Docker容器化Amazon爬虫,支持畅销榜/搜索/详情页数据采集,自动识别页面类型获取BSR、月销量、评分等核心选品数据

收藏
9.7k
安装
2.3k
版本
3.1.8
CLS 安全性认证2026-05-16
点击查看完整报告 >

使用说明

核心功能

Amazon Scraper 是基于 Docker + Crawlee + Playwright 的高性能容器化爬虫,专为亚马逊数据采集优化,同时支持通用动态网页爬取。具备两种核心模式:

Amazon模式(amazon_handler.js)

自动识别三类页面并提取结构化数据:

  • 畅销榜/新品榜/飙升榜/zgbs//zg/new-releases//zg/movers-and-shakers/):获取排名、ASIN、价格、评分、评论数,但不含月销量
  • 搜索结果页/s?k=):获取标题、价格、评分、boughtPastMonth月销量、是否广告位
  • 产品详情页/dp/):最全字段,含BSR排名、品牌、卖点、月销量、上架时间、类目层级等

通用模式(main_handler.js)

针对非亚马逊网站,使用 Playwright 渲染后提取 document.body.innerText,输出上限10000字符。

显著优点

  • 智能路由:根据URL自动识别页面类型,无需手动切换
  • 反爬设计:Docker沙箱隔离、无Cookie残留、模拟真实浏览器行为、自动滚动懒加载
  • 数据完整性:支持多页爬取(--pages参数),单次最多约30-50个产品
  • 结构化输出:JSON格式含状态码、品类名、抓取时间、产品数组
  • 决策辅助:内置完整意图映射表,自动为用户选择最优爬取策略

局限与风险

  • 数据源限制:Best Sellers页面本身不展示月销量,必须配合搜索页或详情页才能获取完整数据
  • 规模限制:单页产品数量有限,大规模采集需多轮请求
  • 登录屏障:不支持需要登录的页面(如亚马逊后台、会员专属内容)
  • 冷启动成本:Docker容器启动约10秒,不适合极高频实时调用
  • 通用模式精简:仅返回纯文本,无结构化字段提取

适合人群

跨境电商卖家、选品分析师、竞品调研人员、市场研究人员,以及需要从亚马逊或动态网页提取结构化数据的开发者。

安全考量

基于 Docker 容器隔离运行,Playwright 浏览器每次全新启动无指纹残留,反爬策略属于行业常规水平。但大规模高频爬取仍可能触发亚马逊反爬机制,建议合理控制请求频率。

安全解读

核心功能

Amazon Scraper 是一款专为电商数据采集设计的容器化爬虫工具,基于 Docker + Crawlee + Playwright 技术栈构建。该工具提供双模式架构:Amazon专用模式支持自动识别三类页面——畅销榜(/zgbs/)、搜索结果(/s?k=)、产品详情(/dp/),可提取排名、ASIN、价格、评分、评论数、月销量(boughtPastMonth)等关键字段;通用模式则支持任意动态网页的文本内容抓取,输出上限10000字符。

显著优点

  • 智能页面识别:根据URL特征自动切换解析策略,无需手动配置
  • 反爬机制完善:每次运行清除Cookie、Docker沙箱隔离、自动滚动加载懒内容、支持重试机制
  • 数据维度丰富:产品详情页可获取BSR、品牌、卖点、上架时间、类目路径等深度信息
  • 决策辅助清晰:内置Agent调用决策树,自动映射用户意图到具体URL构造
  • 合规性较好:仅抓取亚马逊公开数据,不绕过登录,HTTPS加密传输

局限与风险

  • 月销量数据限制:畅销榜页面本身不显示boughtPastMonth,需配合搜索页或详情页获取
  • 单页容量有限:Amazon单页约30-50个产品,大规模采集需多页迭代
  • Docker冷启动:容器启动约10秒延迟,不适合超低延迟场景
  • T3来源风险:个人开发者维护,长期更新稳定性需关注
  • 沙箱配置权衡:Docker内必需使用--no-sandbox,直接宿主机运行会降低安全性

适合人群

跨境电商卖家、选品分析师、竞品研究员、市场情报从业者、数据驱动的电商运营团队。特别适用于需要监控类目趋势、分析爆款特征、追踪竞品动态的精细化运营场景。

常规风险提示

1. 严格遵守亚马逊robots.txt及使用条款,控制请求频率避免IP封禁
2. 始终通过Docker运行以确保安全隔离,切勿在宿主机直接执行

3. 关注GitHub仓库更新,及时应用安全修复

4. 商用场景建议评估数据使用的法律合规性

5. 月销量数据为"boughtPastMonth"估算值,非精确销量,仅供参考

Amazon Scraper 内容

assets文件夹
scripts文件夹
手动下载zip · 8.5 kB
amazon_handler.jstext/javascript
请选择文件