核心功能
Amazon Scraper 是一款专为亚马逊电商数据抓取而优化的容器化爬虫工具,采用 playwright-extra + Stealth 插件组合,通过修改浏览器指纹特征(navigator、WebGL、Canvas、UserAgent 等)有效绕过亚马逊针对 headless 浏览器的反爬检测机制。
技术架构
- 容器化部署:基于 Docker 构建,实现环境隔离与可复现性
- 双模式设计:
amazon_handler.js专注亚马逊多场景解析,main_handler.js支持通用动态网页抓取 - 智能页面识别:自动根据 URL 特征判断页面类型(畅销榜、新品榜、飙升榜、搜索结果、产品详情)
数据获取能力
| 场景 | 关键字段 | 典型用途 |
|------|---------|---------|
| Best Sellers(畅销榜) | rank, title, ASIN, price, rating, reviews | 类目排名分析、爆款挖掘 |
| Search Results(搜索页) | title, ASIN, price, rating, **boughtPastMonth**, sponsored | 月销量评估、竞品监控 |
| Product Detail(详情页) | title, ASIN, price, BSR, brand, bullets, details, **boughtPastMonth** | 深度竞品分析、listing 优化 |
关键限制:Best Sellers 页面不包含月销量数据,需配合搜索页或详情页获取 boughtPastMonth 字段。
显著优势
1. 反爬能力成熟:Stealth 插件 + Chrome 120 模拟 + 1920×1080 视口,显著降低封禁概率
2. 开箱即用:一键构建脚本 setup.sh 自动完成镜像构建与输出目录配置
3. 数据结构化:统一 JSON 输出,包含元数据(状态、类型、采集时间、产品总数)
4. 多页爬取支持:通过 --pages 参数实现批量采集
局限与风险
- 数据覆盖限制:单页约 30-50 个产品,大量数据需分页多次采集
- 登录隔离:不支持需要登录的页面(如买家账户订单、卖家后台)
- 冷启动延迟:Docker 容器启动约 15 秒(含浏览器与插件初始化)
- 通用模式截断:非亚马逊网站内容上限 10,000 字符
- 合规风险:需遵守亚马逊 robots.txt 及服务条款,频繁高频爬取可能触发 IP 限制或法律风险
适用人群
- 亚马逊卖家:选品调研、竞品监控、品类机会分析
- 电商运营:市场调研、爆款追踪、价格策略制定
- 数据分析师:电商数据聚合、趋势研究、自动化报表
安全考量
工具本身为中性技术组件,安全性取决于使用方式。建议控制爬取频率、尊重目标网站规则,并确保数据用途符合当地法律法规。