核心功能
Amazon Scraper 是一个基于 Docker 容器化的高性能爬虫系统,专为亚马逊数据采集优化,同时支持通用动态网页抓取。技术栈采用 Crawlee + Playwright,能够模拟真实浏览器行为,处理 JavaScript 动态渲染页面。
三大模式
1. Amazon 畅销榜模式(/zgbs/):抓取品类 Top 排名、评分、评论数,适合选品调研和市场概览。注意:榜单页不包含月销量数据。
2. Amazon 搜索/详情模式:通过搜索 URL(/s?k=)或产品详情页(/dp/)获取 boughtPastMonth 月销量数据,是竞品分析和销量验证的核心工具。
3. 通用模式(main_handler.js):支持任意动态网页的纯文本提取,输出上限 10,000 字符,适合内容摘要和非 Amazon 网站的数据采集。
显著优势
- 反爬设计完善:每次请求清除 Cookie、Docker 沙箱隔离、Playwright 模拟真实浏览器行为,配合自动重试机制
- 字段覆盖全面:产品详情页可获取 BSR、品牌、卖点、类目、上架时间等 15+ 字段
- 架构轻量:单容器部署,一键构建脚本降低使用门槛
- 多页支持:可通过
--pages参数实现分页爬取
局限性与风险
- Amazon 数据约束:月销量仅存在于搜索页和详情页,榜单页缺失;单页最多 30-50 条产品,大规模采集需分页
- 技术门槛:依赖 Docker 环境(~2GB 磁盘 + 2GB 内存),容器冷启动约 10 秒
- 合规边界:不支持登录态页面,需遵守目标网站 robots.txt 和 rate limit
- 输出限制:通用模式 10,000 字符上限,长文需分段处理
适用人群
- 电商运营/选品人员:调研品类机会、验证竞品销量、分析价格带
- 数据分析师:获取结构化 Amazon 数据用于市场研究
- 产品经理:跟踪新品趋势、监控飙升榜单
- 开发者:需要轻量级、可部署的爬虫基础设施
常规风险提示
| 风险类型 | 说明 |
|---------|------|
| 法律合规 | 需遵守 Amazon 服务条款,禁止用于大规模商业监控 |
| 数据准确性 | 月销量为区间估算(如 "1K+"),非精确数值 |
| 稳定性 | 目标网站结构变更可能导致字段解析失败 |
| 频率控制 | 建议合理控制请求频率,避免 IP 受限 |