使用说明

核心功能

Amazon Scraper 是一款专为亚马逊电商数据抓取而优化的容器化爬虫工具，采用 playwright-extra + Stealth 插件组合，通过修改浏览器指纹特征（navigator、WebGL、Canvas、UserAgent 等）有效绕过亚马逊针对 headless 浏览器的反爬检测机制。

技术架构

容器化部署：基于 Docker 构建，实现环境隔离与可复现性
双模式设计：amazon_handler.js 专注亚马逊多场景解析，main_handler.js 支持通用动态网页抓取
智能页面识别：自动根据 URL 特征判断页面类型（畅销榜、新品榜、飙升榜、搜索结果、产品详情）

数据获取能力

| 场景 | 关键字段 | 典型用途 |

|------|---------|---------|

| Best Sellers（畅销榜） | rank, title, ASIN, price, rating, reviews | 类目排名分析、爆款挖掘 |

| Search Results（搜索页） | title, ASIN, price, rating, **boughtPastMonth**, sponsored | 月销量评估、竞品监控 |

| Product Detail（详情页） | title, ASIN, price, BSR, brand, bullets, details, **boughtPastMonth** | 深度竞品分析、listing 优化 |

关键限制：Best Sellers 页面不包含月销量数据，需配合搜索页或详情页获取 boughtPastMonth 字段。

显著优势

1. 反爬能力成熟：Stealth 插件 + Chrome 120 模拟 + 1920×1080 视口，显著降低封禁概率
2. 开箱即用：一键构建脚本 setup.sh 自动完成镜像构建与输出目录配置
3. 数据结构化：统一 JSON 输出，包含元数据（状态、类型、采集时间、产品总数）
4. 多页爬取支持：通过 --pages 参数实现批量采集

局限与风险

数据覆盖限制：单页约 30-50 个产品，大量数据需分页多次采集
登录隔离：不支持需要登录的页面（如买家账户订单、卖家后台）
冷启动延迟：Docker 容器启动约 15 秒（含浏览器与插件初始化）
通用模式截断：非亚马逊网站内容上限 10,000 字符
合规风险：需遵守亚马逊 robots.txt 及服务条款，频繁高频爬取可能触发 IP 限制或法律风险

适用人群

亚马逊卖家：选品调研、竞品监控、品类机会分析
电商运营：市场调研、爆款追踪、价格策略制定
数据分析师：电商数据聚合、趋势研究、自动化报表

安全考量

工具本身为中性技术组件，安全性取决于使用方式。建议控制爬取频率、尊重目标网站规则，并确保数据用途符合当地法律法规。

安全解读

核心用法

Amazon Scraper 是一款面向电商数据分析的专业级爬虫工具，采用Docker容器化部署，基于 playwright-extra + Stealth插件构建，专为绕过Amazon反爬检测而优化。

三种核心爬取模式

| 模式 | 触发条件 | 典型用途 | 关键数据 |

|:---|:---|:---|:---|

| **畅销榜** | URL含 `/zgbs/` 或 `/bestsellers/` | 品类Top排名分析 | rank, title, ASIN, price, rating, reviews |

| **搜索结果** | URL含 `/s?k=` | 关键词选品调研 | title, ASIN, price, **boughtPastMonth**, sponsored |

| **产品详情** | URL含 `/dp/` 或 `/gp/product/` | 竞品深度分析 | 全字段+BSR+品牌+卖点+**月销量** |

使用流程

1. 首次执行 bash scripts/setup.sh 构建镜像
2. 根据需求构造Amazon URL（或提供任意网页URL）
3. 选择对应handler执行爬取，输出标准JSON格式

显著优点

反爬能力强：Stealth插件自动抹除headless特征，模拟真实Chrome 120浏览器
数据维度丰富：特别支持Amazon独有的boughtPastMonth月销量指标，这是多数竞品难以获取的核心选品数据
容器隔离安全：Docker沙箱运行，每次启动全新浏览器上下文，避免环境指纹关联
双模式覆盖：既深度优化Amazon，又支持通用动态网页抓取

潜在局限

月销量数据限制：Best Sellers榜单页不显示月销量，必须改用搜索页或详情页获取
单页容量有限：每页约30-50条产品，多页需循环调用
登录限制：不支持需要Amazon账户登录的页面（如订单数据、卖家后台）
冷启动延迟：Docker启动+Stealth初始化约15秒
通用模式截断：非Amazon网站仅输出前10000字符纯文本

适合人群

亚马逊卖家/运营：竞品监控、选品调研、价格追踪
电商数据分析师：品类趋势研究、市场容量测算
跨境电商创业者：验证产品机会、评估竞争强度
需要合规抓取公开网页数据的研究人员

常规风险

1. 合规风险：须遵守Amazon robots.txt及服务条款，过度爬取可能导致IP临时封禁
2. 数据时效性：月销量为"past month"估算值，非实时精确销量
3. 结构变更风险：Amazon页面结构更新可能导致字段缺失，需持续关注维护
4. T3来源审慎：个人开发者维护，建议生产环境使用前充分测试验证

web-scraping e-commerce amazon playwright docker anti-detection product-research competitor-analysis

Amazon Scraper 内容

assets文件夹

scripts文件夹

手动下载zip · 9.1 kB

amazon_handler.jstext/javascript

请选择文件