Amazon Scraper

🕷️ 反爬专家级亚马逊数据采集器

基于Playwright Stealth的容器化亚马逊爬虫,专精绕过反爬检测,支持BSR榜单、月销量获取及通用网页抓取,电商选品与竞品分析利器。

收藏
7.6k
安装
2.3k
版本
3.4.1
CLS 安全性认证2026-05-18
点击查看完整报告 >

使用说明

核心用法

Amazon Scraper 是一个 Docker 容器化的高性能爬虫工具,基于 playwright-extra + Stealth 插件构建,核心目标是绕过亚马逊严格的 headless 浏览器检测。支持两种工作模式:

Amazon 模式 (amazon_handler.js):自动识别三种页面类型——畅销榜 /gp/bestsellers/(含排名但无月销量)、新品榜 /zg/new-releases/、飙升榜 /zg/movers-and-shakers/、搜索结果 /s?k=(含关键字段 boughtPastMonth 月销量)、产品详情页 /dp/(最全数据:BSR、品牌、卖点、月销)。支持多页爬取 --pages、文件输出 --output、自定义代理覆盖。

通用模式 (main_handler.js):处理非亚马逊的动态网页,提取 document.body.innerText 纯文本,输出上限10000字符。

显著优点

  • 反爬能力强:Stealth 插件自动修改 navigator、WebGL、Canvas 等指纹特征,配合 Chrome 123 UserAgent 和完整请求头,有效绕过 headless 检测
  • 开箱即用:内置5个轮询代理,无需配置即可直接运行
  • 架构专业:Docker 沙箱隔离,每次启动全新浏览器上下文,代理自动轮询+故障切换
  • 电商数据专精:专门针对亚马逊 BSR、月销量(boughtPastMonth)、评论数等选品核心字段优化

潜在局限

  • 通用模式输出上限10000字符,不适合超长篇内容
  • Amazon 单页仅约30-50产品,大规模采集需多页组合
  • 不支持登录态页面(购物车、个人订单等)
  • Docker 冷启动约15秒(含 Stealth 初始化)
  • 依赖亚马逊页面结构稳定性,DOM 变更可能导致字段缺失

适合人群

  • 亚马逊卖家/运营:选品调研、竞品监控、品类机会分析
  • 跨境电商分析师:批量获取 BSR、月销量、价格带、评分分布
  • 数据研究员:需要结构化电商数据的自动化采集场景
  • 开发者:需要反爬能力强的动态网页抓取基础设施

常规风险

  • 合规风险:需遵守亚马逊 robots.txt 及服务条款,高频爬取可能导致 IP 被封或账号受限
  • 数据准确性boughtPastMonth 为亚马逊估算值,非精确销量;BSR 为实时波动排名
  • 技术依赖:Playwright 浏览器二进制文件约占用 2GB 磁盘,内存建议 2GB+
  • 代理成本:内置代理为共享资源,大规模商业用途建议配置私有代理池

安全解读

核心用法

Amazon Scraper 是一款专为电商数据采集设计的容器化爬虫工具,采用 Docker + playwright-extra + Stealth 插件架构,核心能力包括:

Amazon 专属模式

  • 畅销榜 (/gp/bestsellers/):获取品类 Top 排名、ASIN、价格、评分、评论数
  • 新品榜/飙升榜:追踪市场趋势和增长机会
  • 搜索结果 (/s?k=):支持关键词搜索,可获取 boughtPastMonth(月销量)数据
  • 产品详情 (/dp/ASIN):最全字段采集,包括 BSR、品牌、卖点、月销量、上架时间、类目信息等

通用网页模式

  • 支持任意动态网页抓取,自动等待 JS 加载完成后提取正文内容

显著优点

1. 反爬能力强:Stealth 插件自动隐藏 headless 特征,模拟真实 Chrome 浏览器指纹(UserAgent、WebGL、Canvas、viewport 等)
2. 开箱即用:内置 5 个代理轮询,无需额外配置

3. 多页爬取:支持 --pages 参数自动翻页,代理自动轮换

4. 输出灵活:支持 JSON 文件导出、Docker 卷挂载持久化

5. 双模式设计:Amazon 专用解析 + 通用文本提取,覆盖电商选品和网页内容采集场景

潜在缺点与局限

  • 冷启动延迟:Docker 容器启动约 15 秒(含浏览器初始化)
  • 单页容量限制:Amazon 单页约 30-50 个产品,大量数据需多页爬取
  • 通用模式输出上限:10000 字符,适合内容摘要而非全站爬取
  • 登录限制:不支持需登录的页面(如购物车、订单历史)
  • 月销量数据缺口:Best Sellers 榜单页本身不显示月销量,必须配合搜索页或详情页获取

适合人群

  • 电商运营/选品人员:竞品分析、市场趋势追踪、价格监控
  • 跨境电商卖家:亚马逊 BSR 研究、品类机会挖掘
  • 数据分析师:需要结构化电商数据的自动化采集
  • 内容研究者:通用网页内容抓取和文本提取

常规风险

  • 依赖外部代理:内置 Oxylabs 代理服务,网络波动或代理失效会影响功能
  • 硬编码凭据:配置文件中存在明文代理凭证(建议通过环境变量覆盖)
  • Docker 沙箱降级:使用 --no-sandbox 运行浏览器,容器隔离安全性有所降低
  • 反爬对抗风险:亚马逊页面结构可能变更,需持续关注维护
  • 合规边界:仅限采集公开商品信息,避免频繁请求导致 IP 被封

使用建议

  • 需要 排名+月销量 组合数据时,先用 Best Sellers 拿排名,再用搜索页补月销
  • 高频率爬取建议配置自定义代理池,分散请求压力
  • 生产环境务必通过 AMAZON_PROXIES 环境变量注入私有代理,替换内置凭证

Amazon Scraper 内容

assets文件夹
config文件夹
scripts文件夹
手动下载zip · 13.0 kB
amazon_handler.jstext/javascript
请选择文件