使用说明

核心用法

Amazon Scraper 是一款容器化爬虫工具，采用 playwright-extra 配合 Stealth 插件构建，专为绕过亚马逊反爬虫机制优化。用户通过 Docker 运行预构建镜像，根据目标 URL 自动选择 Amazon 专用模式或通用模式：

Amazon 模式：自动识别畅销榜(/zgbs/)、新品榜(/zg/new-releases/)、飙升榜(/zg/movers-and-shakers/)、搜索结果(/s?k=)、产品详情(/dp/)五种页面类型，输出结构化 JSON 数据
通用模式：提取任意动态网页的纯文本内容，上限 10,000 字符

关键操作规则：Best Sellers 页面不含月销量数据（boughtPastMonth），需通过搜索页或详情页获取；支持多页爬取（--pages 参数）。

显著优点

1. 反爬能力强：Stealth 插件自动抹除 headless 特征（navigator、WebGL、Canvas），配合 Chrome 120 UserAgent 和 1920×1080 视口，有效规避检测
2. 开箱即用：一键构建脚本 setup.sh 自动完成镜像构建和环境初始化
3. 数据字段丰富：产品详情页可提取 BSR、品牌、卖点、月销、上架时间等 10+ 维度
4. 沙箱隔离：Docker 容器每次启动全新浏览器上下文，降低封禁风险
5. 决策树清晰：内置完整的用户意图 → URL 构造 → 模式选择逻辑

潜在缺点与局限性

| 局限项 | 说明 |

|--------|------|

| 冷启动开销 | Docker 容器启动约 15 秒（含 Stealth 插件初始化） |

| 单页容量限制 | Amazon 单页最多 30-50 个产品，大规模采集需分页 |

| 登录屏障 | 不支持需要登录的页面（如 Amazon 后台、会员专属内容） |

| 通用模式截断 | 非 Amazon 网站仅提取前 10,000 字符，长文可能不完整 |

| 反爬对抗成本 | 亚马逊持续升级检测机制，Stealth 插件需跟进维护 |

适合人群

跨境电商卖家：选品调研、竞品分析、价格监控、BSR 追踪
市场分析师：品类机会挖掘、爆款识别、评分分布研究
数据工程师：需要结构化亚马逊数据的自动化采集场景
研究人员：快速抓取公开网页内容用于分析（需遵守 robots.txt 及 ToS）

常规风险

法律合规：爬取亚马逊数据需遵守其《服务条款》，频繁/大规模采集可能导致 IP 封禁或法律风险
数据准确性：boughtPastMonth 为亚马逊提供的区间估算值（如"1K+"），非精确销量
维护依赖：Playwright 和 Stealth 插件需随浏览器版本更新，长期不用可能失效
成本考量：持续运行 Docker 容器产生计算资源消耗，高频调用需评估云服务器成本

web-scraping amazon playwright docker e-commerce competitive-intelligence product-research data-extraction stealth bsr market-research

Amazon Scraper 内容

assets文件夹

scripts文件夹

手动下载zip · 9.2 kB

amazon_handler.jstext/javascript

请选择文件