使用说明

Amazon Scraper 是基于 Docker + Crawlee + Playwright 的高性能容器化爬虫，专为亚马逊数据采集场景深度优化，同时兼容通用动态网页爬取。

三大抓取模式：

1. Best Sellers 畅销榜模式（/zgbs/、/bestsellers/）：获取品类 Top 100 排名数据，包含 rank、title、asin、price、rating、reviews 等字段。注意：榜单页不提供月销量数据。

2. 搜索结果模式（/s?k=）：关键词搜索页抓取，支持获取 boughtPastMonth（月销量）、sponsored 标识等关键选品指标。

3. 产品详情模式（/dp/、/gp/product/）：单 ASIN 深度分析，字段最全，包含 BSR 排名、品牌、卖点 bullets、上架时间、类目路径等。

智能决策逻辑：系统自动识别 URL 类型分配对应 handler，无 URL 时根据用户意图构造目标链接（如"蓝牙耳机畅销榜"→构造 /zgbs/electronics）。

| 风险类型 | 说明 | 缓解措施 |

|---------|------|---------|

| 反爬封禁 | Amazon 可能临时拦截 IP 或返回验证码 | 已内置重试与浏览器模拟；高频率操作建议配合代理 |

| 数据时效性 | 榜单/价格实时变动，抓取结果为快照 | 明确标注 scrapedAt 时间戳，建议高频监控场景定时任务 |

| 合规风险 | 需遵守 Amazon robots.txt 及当地数据法规 | 仅用于公开商品信息采集，禁止爬取用户隐私/评论者信息 |

| Docker 环境依赖 | 本地无 Docker 则无法运行 | 首次使用前确认 `docker --version` 并执行 setup.sh |

---

技术栈：Node.js + Crawlee + Playwright + Docker
输出格式：结构化 JSON，便于程序化解析入库

安全解读

Amazon Scraper 是一款基于 Docker + Crawlee + Playwright 的容器化网页爬虫工具，提供两种运行模式：

1. Amazon 专精模式 (amazon_handler.js)：自动识别亚马逊页面类型

2. 通用网页模式 (main_handler.js)：任意动态网页纯文本提取，输出上限10,000字符

关键数据规则：Best Sellers页面不提供月销量数据——需通过搜索页或详情页获取。

| 风险项 | 说明 | 缓解措施 |

|--------|------|----------|

| 亚马逊反爬封禁 | 高频请求可能触发IP限制 | 控制请求频率，避免多页并发 |

| 页面结构变更 | 亚马逊DOM更新导致解析失败 | 关注版本更新，预留维护窗口 |

| Docker权限需求 | 需本地Docker环境及~2GB磁盘 | 确保可信环境运行，隔离生产系统 |

| 数据合规 | 抓取公开商品数据本身合法，但需遵守平台ToS | 仅用于内部分析，勿大规模商业转售 |

assets文件夹

scripts文件夹

手动下载zip · 8.9 kB

amazon_handler.jstext/javascript

请选择文件