核心用法
Amazon Scraper 是一个 Docker 容器化的高性能爬虫工具,基于 playwright-extra + Stealth 插件构建,核心目标是绕过亚马逊严格的 headless 浏览器检测。支持两种工作模式:
Amazon 模式 (amazon_handler.js):自动识别三种页面类型——畅销榜 /gp/bestsellers/(含排名但无月销量)、新品榜 /zg/new-releases/、飙升榜 /zg/movers-and-shakers/、搜索结果 /s?k=(含关键字段 boughtPastMonth 月销量)、产品详情页 /dp/(最全数据:BSR、品牌、卖点、月销)。支持多页爬取 --pages、文件输出 --output、自定义代理覆盖。
通用模式 (main_handler.js):处理非亚马逊的动态网页,提取 document.body.innerText 纯文本,输出上限10000字符。
显著优点
- 反爬能力强:Stealth 插件自动修改 navigator、WebGL、Canvas 等指纹特征,配合 Chrome 123 UserAgent 和完整请求头,有效绕过 headless 检测
- 开箱即用:内置5个轮询代理,无需配置即可直接运行
- 架构专业:Docker 沙箱隔离,每次启动全新浏览器上下文,代理自动轮询+故障切换
- 电商数据专精:专门针对亚马逊 BSR、月销量(boughtPastMonth)、评论数等选品核心字段优化
潜在局限
- 通用模式输出上限10000字符,不适合超长篇内容
- Amazon 单页仅约30-50产品,大规模采集需多页组合
- 不支持登录态页面(购物车、个人订单等)
- Docker 冷启动约15秒(含 Stealth 初始化)
- 依赖亚马逊页面结构稳定性,DOM 变更可能导致字段缺失
适合人群
- 亚马逊卖家/运营:选品调研、竞品监控、品类机会分析
- 跨境电商分析师:批量获取 BSR、月销量、价格带、评分分布
- 数据研究员:需要结构化电商数据的自动化采集场景
- 开发者:需要反爬能力强的动态网页抓取基础设施
常规风险
- 合规风险:需遵守亚马逊 robots.txt 及服务条款,高频爬取可能导致 IP 被封或账号受限
- 数据准确性:
boughtPastMonth为亚马逊估算值,非精确销量;BSR 为实时波动排名 - 技术依赖:Playwright 浏览器二进制文件约占用 2GB 磁盘,内存建议 2GB+
- 代理成本:内置代理为共享资源,大规模商业用途建议配置私有代理池