使用说明

核心能力

Amazon Scraper 是一款专为电商数据分析设计的容器化爬虫工具，采用 playwright-extra + Stealth 插件技术栈，核心能力包括：

1. 亚马逊深度数据抓取

畅销榜（BSR）：爬取 /zgbs/ 各品类 Top 100 排名、价格、评分、评论数
新品榜/飙升榜：追踪 /zg/new-releases/ 和 /zg/movers-and-shakers/ 趋势
搜索页：获取关键词搜索结果，含关键字段「boughtPastMonth」（月销量）
产品详情页：提取 ASIN、品牌、BSR、卖点、上架时间、完整评论分析等全量字段

2. 智能模式识别
自动根据 URL 特征切换抓取策略，无需手动配置；同时支持非亚马逊网站的通用动态页面抓取。

3. 反爬对抗

Stealth 插件自动抹除 headless 特征（navigator、WebGL、Canvas）
模拟 Chrome 120 真实浏览器指纹 + 1920×1080 视口
Docker 沙箱隔离，每次启动全新浏览器上下文

显著优点

数据维度全：唯一同时支持「排名+月销量+详情」的亚马逊开源方案
绕过检测率高：Stealth 插件针对 Amazon 反爬策略专项优化
部署零依赖：单 Docker 镜像封装，一键 bash scripts/setup.sh 启动
场景覆盖广：选品调研、竞品监控、价格追踪、市场趋势分析均可支撑

潜在缺点与局限

冷启动开销：Docker 容器启动约 15 秒（含浏览器初始化）
单页容量限制：Amazon 单页约 30-50 个产品，大量数据需多页分页
登录壁垒：不支持需登录的页面（如 Amazon Business、Vine 评论）
通用模式截断：非亚马逊站点输出上限 10,000 字符
合规灰色地带：爬取频率过高可能触发 IP 限制，需自行控制并发

适合人群

亚马逊 FBA/FBM 卖家及运营团队
电商选品分析师、市场调研员
竞品监控工具开发者
需要批量获取电商公开数据的商业分析师

常规风险

法律合规：需遵守 Amazon robots.txt 及当地数据保护法规，建议仅用于公开数据
IP 封禁：高频率请求可能导致 IP 被限，建议配合代理池使用
数据时效：月销量「boughtPastMonth」为模糊区间（如 1K+），非精确值
页面结构变更：Amazon 前端改版可能导致选择器失效，需持续维护

安全解读

核心功能

Amazon Scraper 是一款面向电商数据分析场景的专用爬虫工具，采用 Docker 容器化部署，基于 playwright-extra 与 Stealth 插件构建，核心定位是解决 Amazon 反爬检测绕过问题，同时兼容通用动态网页抓取。

主要能力

Amazon 专用模式：智能识别 URL 类型，自动切换采集策略
畅销榜（/zgbs/）：获取排名、ASIN、价格、评分、评论数
新品榜（/new-releases/）、飙升榜（/movers-and-shakers/）：追踪趋势
搜索结果（/s?k=）：支持 boughtPastMonth 月销量字段，含赞助商品标识
产品详情（/dp/）：最全字段，含 BSR、品牌、卖点、上架时间、类目等
通用网页模式：任意动态页面抓取，提取正文文本（10,000 字符上限）

显著优点

1. 反爬能力强：自动修改 navigator、WebGL、Canvas、UserAgent 等 headless 特征，模拟 1920×1080 Windows Chrome 120 环境
2. 数据价值高：专为选品场景设计，月销量与 BSR 数据对跨境电商决策关键
3. 隔离安全：Docker 沙箱运行，每次启动全新浏览器上下文，无持久化污染
4. 多页支持：支持 --pages 2 参数连续翻页采集
5. 开箱即用：一键构建脚本 setup.sh 自动配置环境

潜在缺点与局限

冷启动延迟：Docker 容器启动约 15 秒（含 Stealth 插件初始化）
数据完整性限制：Best Sellers 页面本身不展示月销量，需配合搜索页或详情页补全
单页容量有限：Amazon 单页约 30-50 个产品，大规模采集需多次运行
认证壁垒：不支持需登录的页面，无法获取购物车、Prime 专属价等数据
通用模式截断：输出上限 10,000 字符，长文内容可能不完整

适合人群

亚马逊卖家/运营：选品调研、竞品监控、价格追踪
跨境电商分析师：市场趋势分析、品类机会挖掘
电商数据服务商：批量采集公开商品数据构建数据集

常规风险

合规边界：使用 Stealth 插件绕过检测虽为声明功能，但需关注目标网站 ToS 与 robots.txt 合规性
URL 输入风险：通用模式接受任意 URL，存在 file:// 协议或内网地址潜在风险（建议部署时加固）
稳定性依赖：Amazon 页面结构变更可能导致解析失败，需持续维护

技术架构

运行时：Docker Engine 20.10+
资源需求：~2GB 磁盘、2GB+ 内存
输出格式：结构化 JSON，含采集时间戳与状态标识

web-scraping amazon e-commerce playwright docker competitive-intelligence product-research market-analysis bsr data-extraction

Amazon Scraper 内容

assets文件夹

scripts文件夹

手动下载zip · 9.1 kB

amazon_handler.jstext/javascript

请选择文件