使用说明

核心用法

Amazon Scraper 是一个 Docker 容器化的高性能爬虫工具，基于 playwright-extra + Stealth 插件构建，核心目标是绕过亚马逊严格的 headless 浏览器检测。支持两种工作模式：

Amazon 模式 (amazon_handler.js)：自动识别三种页面类型——畅销榜 /gp/bestsellers/（含排名但无月销量）、新品榜 /zg/new-releases/、飙升榜 /zg/movers-and-shakers/、搜索结果 /s?k=（含关键字段 boughtPastMonth 月销量）、产品详情页 /dp/（最全数据：BSR、品牌、卖点、月销）。支持多页爬取 --pages、文件输出 --output、自定义代理覆盖。

通用模式 (main_handler.js)：处理非亚马逊的动态网页，提取 document.body.innerText 纯文本，输出上限10000字符。

显著优点

反爬能力强：Stealth 插件自动修改 navigator、WebGL、Canvas 等指纹特征，配合 Chrome 123 UserAgent 和完整请求头，有效绕过 headless 检测
开箱即用：内置5个轮询代理，无需配置即可直接运行
架构专业：Docker 沙箱隔离，每次启动全新浏览器上下文，代理自动轮询+故障切换
电商数据专精：专门针对亚马逊 BSR、月销量(boughtPastMonth)、评论数等选品核心字段优化

潜在局限

通用模式输出上限10000字符，不适合超长篇内容
Amazon 单页仅约30-50产品，大规模采集需多页组合
不支持登录态页面（购物车、个人订单等）
Docker 冷启动约15秒（含 Stealth 初始化）
依赖亚马逊页面结构稳定性，DOM 变更可能导致字段缺失

适合人群

亚马逊卖家/运营：选品调研、竞品监控、品类机会分析
跨境电商分析师：批量获取 BSR、月销量、价格带、评分分布
数据研究员：需要结构化电商数据的自动化采集场景
开发者：需要反爬能力强的动态网页抓取基础设施

常规风险

合规风险：需遵守亚马逊 robots.txt 及服务条款，高频爬取可能导致 IP 被封或账号受限
数据准确性：boughtPastMonth 为亚马逊估算值，非精确销量；BSR 为实时波动排名
技术依赖：Playwright 浏览器二进制文件约占用 2GB 磁盘，内存建议 2GB+
代理成本：内置代理为共享资源，大规模商业用途建议配置私有代理池

安全解读

核心用法

Amazon Scraper 是一款专为电商数据采集设计的容器化爬虫工具，采用 Docker + playwright-extra + Stealth 插件架构，核心能力包括：

Amazon 专属模式

畅销榜 (/gp/bestsellers/)：获取品类 Top 排名、ASIN、价格、评分、评论数
新品榜/飙升榜：追踪市场趋势和增长机会
搜索结果 (/s?k=)：支持关键词搜索，可获取 boughtPastMonth（月销量）数据
产品详情 (/dp/ASIN)：最全字段采集，包括 BSR、品牌、卖点、月销量、上架时间、类目信息等

通用网页模式

支持任意动态网页抓取，自动等待 JS 加载完成后提取正文内容

显著优点

1. 反爬能力强：Stealth 插件自动隐藏 headless 特征，模拟真实 Chrome 浏览器指纹（UserAgent、WebGL、Canvas、viewport 等）
2. 开箱即用：内置 5 个代理轮询，无需额外配置
3. 多页爬取：支持 --pages 参数自动翻页，代理自动轮换
4. 输出灵活：支持 JSON 文件导出、Docker 卷挂载持久化
5. 双模式设计：Amazon 专用解析 + 通用文本提取，覆盖电商选品和网页内容采集场景

潜在缺点与局限

冷启动延迟：Docker 容器启动约 15 秒（含浏览器初始化）
单页容量限制：Amazon 单页约 30-50 个产品，大量数据需多页爬取
通用模式输出上限：10000 字符，适合内容摘要而非全站爬取
登录限制：不支持需登录的页面（如购物车、订单历史）
月销量数据缺口：Best Sellers 榜单页本身不显示月销量，必须配合搜索页或详情页获取

适合人群

电商运营/选品人员：竞品分析、市场趋势追踪、价格监控
跨境电商卖家：亚马逊 BSR 研究、品类机会挖掘
数据分析师：需要结构化电商数据的自动化采集
内容研究者：通用网页内容抓取和文本提取

常规风险

依赖外部代理：内置 Oxylabs 代理服务，网络波动或代理失效会影响功能
硬编码凭据：配置文件中存在明文代理凭证（建议通过环境变量覆盖）
Docker 沙箱降级：使用 --no-sandbox 运行浏览器，容器隔离安全性有所降低
反爬对抗风险：亚马逊页面结构可能变更，需持续关注维护
合规边界：仅限采集公开商品信息，避免频繁请求导致 IP 被封

使用建议

需要 排名+月销量 组合数据时，先用 Best Sellers 拿排名，再用搜索页补月销
高频率爬取建议配置自定义代理池，分散请求压力
生产环境务必通过 AMAZON_PROXIES 环境变量注入私有代理，替换内置凭证

web-scraping amazon e-commerce playwright docker data-extraction market-research product-research anti-detection stealth

Amazon Scraper 内容

assets文件夹

config文件夹

scripts文件夹

手动下载zip · 13.0 kB

amazon_handler.jstext/javascript

请选择文件