核心能力
Amazon Scraper 是一款专为电商数据分析设计的容器化爬虫工具,采用 playwright-extra + Stealth 插件技术栈,核心能力包括:
1. 亚马逊深度数据抓取
- 畅销榜(BSR):爬取
/zgbs/各品类 Top 100 排名、价格、评分、评论数 - 新品榜/飙升榜:追踪
/zg/new-releases/和/zg/movers-and-shakers/趋势 - 搜索页:获取关键词搜索结果,含关键字段「boughtPastMonth」(月销量)
- 产品详情页:提取 ASIN、品牌、BSR、卖点、上架时间、完整评论分析等全量字段
2. 智能模式识别
自动根据 URL 特征切换抓取策略,无需手动配置;同时支持非亚马逊网站的通用动态页面抓取。
3. 反爬对抗
- Stealth 插件自动抹除 headless 特征(navigator、WebGL、Canvas)
- 模拟 Chrome 120 真实浏览器指纹 + 1920×1080 视口
- Docker 沙箱隔离,每次启动全新浏览器上下文
显著优点
- 数据维度全:唯一同时支持「排名+月销量+详情」的亚马逊开源方案
- 绕过检测率高:Stealth 插件针对 Amazon 反爬策略专项优化
- 部署零依赖:单 Docker 镜像封装,一键
bash scripts/setup.sh启动 - 场景覆盖广:选品调研、竞品监控、价格追踪、市场趋势分析均可支撑
潜在缺点与局限
- 冷启动开销:Docker 容器启动约 15 秒(含浏览器初始化)
- 单页容量限制:Amazon 单页约 30-50 个产品,大量数据需多页分页
- 登录壁垒:不支持需登录的页面(如 Amazon Business、Vine 评论)
- 通用模式截断:非亚马逊站点输出上限 10,000 字符
- 合规灰色地带:爬取频率过高可能触发 IP 限制,需自行控制并发
适合人群
- 亚马逊 FBA/FBM 卖家及运营团队
- 电商选品分析师、市场调研员
- 竞品监控工具开发者
- 需要批量获取电商公开数据的商业分析师
常规风险
- 法律合规:需遵守 Amazon robots.txt 及当地数据保护法规,建议仅用于公开数据
- IP 封禁:高频率请求可能导致 IP 被限,建议配合代理池使用
- 数据时效:月销量「boughtPastMonth」为模糊区间(如 1K+),非精确值
- 页面结构变更:Amazon 前端改版可能导致选择器失效,需持续维护