核心用法
Amazon Scraper 是基于 Docker + Crawlee + Playwright 的高性能容器化爬虫,专为亚马逊数据采集场景深度优化,同时兼容通用动态网页爬取。
三大抓取模式:
1. Best Sellers 畅销榜模式(/zgbs/、/bestsellers/):获取品类 Top 100 排名数据,包含 rank、title、asin、price、rating、reviews 等字段。注意:榜单页不提供月销量数据。
2. 搜索结果模式(/s?k=):关键词搜索页抓取,支持获取 boughtPastMonth(月销量)、sponsored 标识等关键选品指标。
3. 产品详情模式(/dp/、/gp/product/):单 ASIN 深度分析,字段最全,包含 BSR 排名、品牌、卖点 bullets、上架时间、类目路径等。
智能决策逻辑:系统自动识别 URL 类型分配对应 handler,无 URL 时根据用户意图构造目标链接(如"蓝牙耳机畅销榜"→构造 /zgbs/electronics)。
显著优点
- 专业电商数据覆盖:精准解析 Amazon BSR、月销标签、评分分布等核心业务指标,直接服务选品决策
- 反爬机制完善:Cookie 隔离、Docker 沙箱、Playwright 真实浏览器模拟、自动重试,稳定性优于普通脚本
- 开箱即用:一键
setup.sh完成环境构建,无需手动配置 Node.js/Playwright 依赖 - 双模式架构:Amazon 专用模式 + 通用网页模式,兼顾专业场景与灵活扩展
潜在缺点与局限性
- 数据完整性限制:Best Sellers 页与月销量数据互斥,需组合爬取;单页产品数上限 30-50 条
- 冷启动开销:Docker 容器启动约 10 秒,不适合极高频即时调用
- 登录墙无法突破:不支持需要 Amazon 账号登录的页面(如 Buy Box 后台数据、订单信息)
- 通用模式截断:非 Amazon 站点仅输出 body.innerText,上限 10000 字符,复杂页面信息损失较大
适合人群
- 亚马逊卖家/运营:日常监控竞品排名、价格变动、Review 增长
- 跨境电商选品人员:通过 BSR + 月销量分析品类机会、验证产品需求
- 市场研究人员:批量采集类目数据做价格带分析、竞品矩阵梳理
- 数据分析师:获取结构化 Amazon 数据用于后续建模或可视化
常规风险
| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| 反爬封禁 | Amazon 可能临时拦截 IP 或返回验证码 | 已内置重试与浏览器模拟;高频率操作建议配合代理 |
| 数据时效性 | 榜单/价格实时变动,抓取结果为快照 | 明确标注 scrapedAt 时间戳,建议高频监控场景定时任务 |
| 合规风险 | 需遵守 Amazon robots.txt 及当地数据法规 | 仅用于公开商品信息采集,禁止爬取用户隐私/评论者信息 |
| Docker 环境依赖 | 本地无 Docker 则无法运行 | 首次使用前确认 `docker --version` 并执行 setup.sh |
---
技术栈:Node.js + Crawlee + Playwright + Docker
输出格式:结构化 JSON,便于程序化解析入库