使用说明

核心功能

Amazon Scraper 是基于 Docker + Crawlee + Playwright 的高性能容器化爬虫，专为亚马逊数据采集优化，同时支持通用动态网页爬取。具备两种核心模式：

Amazon模式（amazon_handler.js）

自动识别三类页面并提取结构化数据：

畅销榜/新品榜/飙升榜（/zgbs/、/zg/new-releases/、/zg/movers-and-shakers/）：获取排名、ASIN、价格、评分、评论数，但不含月销量
搜索结果页（/s?k=）：获取标题、价格、评分、boughtPastMonth月销量、是否广告位
产品详情页（/dp/）：最全字段，含BSR排名、品牌、卖点、月销量、上架时间、类目层级等

通用模式（main_handler.js）

针对非亚马逊网站，使用 Playwright 渲染后提取 document.body.innerText，输出上限10000字符。

显著优点

智能路由：根据URL自动识别页面类型，无需手动切换
反爬设计：Docker沙箱隔离、无Cookie残留、模拟真实浏览器行为、自动滚动懒加载
数据完整性：支持多页爬取（--pages参数），单次最多约30-50个产品
结构化输出：JSON格式含状态码、品类名、抓取时间、产品数组
决策辅助：内置完整意图映射表，自动为用户选择最优爬取策略

局限与风险

数据源限制：Best Sellers页面本身不展示月销量，必须配合搜索页或详情页才能获取完整数据
规模限制：单页产品数量有限，大规模采集需多轮请求
登录屏障：不支持需要登录的页面（如亚马逊后台、会员专属内容）
冷启动成本：Docker容器启动约10秒，不适合极高频实时调用
通用模式精简：仅返回纯文本，无结构化字段提取

适合人群

跨境电商卖家、选品分析师、竞品调研人员、市场研究人员，以及需要从亚马逊或动态网页提取结构化数据的开发者。

安全考量

基于 Docker 容器隔离运行，Playwright 浏览器每次全新启动无指纹残留，反爬策略属于行业常规水平。但大规模高频爬取仍可能触发亚马逊反爬机制，建议合理控制请求频率。

安全解读

核心功能

Amazon Scraper 是一款专为电商数据采集设计的容器化爬虫工具，基于 Docker + Crawlee + Playwright 技术栈构建。该工具提供双模式架构：Amazon专用模式支持自动识别三类页面——畅销榜(/zgbs/)、搜索结果(/s?k=)、产品详情(/dp/)，可提取排名、ASIN、价格、评分、评论数、月销量(boughtPastMonth)等关键字段；通用模式则支持任意动态网页的文本内容抓取，输出上限10000字符。

显著优点

智能页面识别：根据URL特征自动切换解析策略，无需手动配置
反爬机制完善：每次运行清除Cookie、Docker沙箱隔离、自动滚动加载懒内容、支持重试机制
数据维度丰富：产品详情页可获取BSR、品牌、卖点、上架时间、类目路径等深度信息
决策辅助清晰：内置Agent调用决策树，自动映射用户意图到具体URL构造
合规性较好：仅抓取亚马逊公开数据，不绕过登录，HTTPS加密传输

局限与风险

月销量数据限制：畅销榜页面本身不显示boughtPastMonth，需配合搜索页或详情页获取
单页容量有限：Amazon单页约30-50个产品，大规模采集需多页迭代
Docker冷启动：容器启动约10秒延迟，不适合超低延迟场景
T3来源风险：个人开发者维护，长期更新稳定性需关注
沙箱配置权衡：Docker内必需使用--no-sandbox，直接宿主机运行会降低安全性

适合人群

跨境电商卖家、选品分析师、竞品研究员、市场情报从业者、数据驱动的电商运营团队。特别适用于需要监控类目趋势、分析爆款特征、追踪竞品动态的精细化运营场景。

常规风险提示

1. 严格遵守亚马逊robots.txt及使用条款，控制请求频率避免IP封禁
2. 始终通过Docker运行以确保安全隔离，切勿在宿主机直接执行
3. 关注GitHub仓库更新，及时应用安全修复
4. 商用场景建议评估数据使用的法律合规性
5. 月销量数据为"boughtPastMonth"估算值，非精确销量，仅供参考

web-scraping amazon e-commerce product-research competitor-analysis docker playwright crawlee bsr asin market-research

Amazon Scraper 内容

assets文件夹

scripts文件夹

手动下载zip · 8.5 kB

amazon_handler.jstext/javascript

请选择文件