使用说明

核心功能

Amazon Scraper 是一款基于 Docker + Crawlee + Playwright 的高性能数据采集工具，专为亚马逊电商数据采集优化，同时支持通用动态网页爬取。

核心用法

工具提供两种工作模式：

1. Amazon模式（amazon_handler.js）- 智能识别三种页面类型：

畅销榜（/zgbs/）：获取排名、ASIN、价格、评分、评论数，适合选品调研
搜索结果（/s?k=）：包含关键字段 boughtPastMonth（月销量），适合竞品分析
产品详情（/dp/）：最全数据，含BSR、品牌、卖点、上市时间、详细规格

2. 通用模式（main_handler.js）- 任意动态网页文本提取，输出上限10000字符

显著优点

数据权威性：直接抓取亚马逊官方页面，非第三方API，数据实时准确
反爬能力：Docker沙箱隔离、Playwright模拟真实浏览器、自动清除Cookie、支持重试机制
字段丰富：特别是 boughtPastMonth（过去一个月购买量）字段，对选品决策极具价值
架构成熟：基于业界标准的 Crawlee + Playwright 技术栈，可维护性强

潜在局限

数据完整性：Best Sellers页面本身不显示月销量，需配合搜索页或详情页获取
规模限制：单页约30-50个产品，大规模采集需多页遍历
访问限制：不支持登录态页面，无法获取个性化推荐或会员价格
性能开销：Docker冷启动约10秒，不适合极低延迟场景
字符上限：通用模式输出限制10000字符，长内容需分段处理

适合人群

跨境电商卖家：选品调研、竞品监控、价格追踪
市场分析师：品类趋势分析、爆款挖掘、市场机会评估
电商运营：ASIN详情分析、评论情感挖掘、卖点提炼
数据研究员：需要结构化亚马逊数据的学术或商业研究

风险提示

频繁爬取可能触发亚马逊反爬机制，建议控制请求频率
需遵守亚马逊 robots.txt 及使用条款，商业用途建议咨询法律意见
月销量数据为亚马逊主动展示的估算范围（如"1K+"），非精确数值
数据仅反映抓取时刻状态，价格波动和库存变化需实时更新

安全解读

核心用法

Amazon Scraper 是一个基于 Docker + Crawlee + Playwright 的容器化网页爬虫工具，专门针对亚马逊数据采集优化，同时支持通用动态网页爬取。

主要功能模式：

Amazon模式：自动识别亚马逊页面类型（畅销榜/zgbs/、新品榜/new-releases/、飙升榜/movers-and-shakers/、搜索结果/s?k=、产品详情/dp/），输出结构化JSON数据
通用模式：爬取任意动态网页，提取纯文本内容（上限10000字符）

关键数据字段：

畅销榜：排名、标题、ASIN、价格、评分、评论数、图片URL
搜索结果：月销量（boughtPastMonth）、赞助标识、完整产品信息
产品详情：BSR、品牌、卖点、上架时间、详细参数

重要规则： Best Sellers页面不含月销量数据，需通过搜索页或详情页获取。

显著优点

1. 专业亚马逊优化：自动识别5种页面类型，针对性提取高价值电商数据
2. 反爬能力强：Docker沙箱隔离、清除Cookie、Playwright模拟真实浏览器、自动滚动加载
3. 数据结构化：输出标准JSON，便于后续分析处理
4. 技术栈成熟：Crawlee和Playwright均为知名开源库，社区活跃
5. 一键部署：提供setup.sh脚本，快速完成环境搭建

潜在缺点与局限性

冷启动延迟：Docker容器启动约10秒
单页容量限制：Amazon单页最多30-50个产品，大量数据需多页爬取
无登录支持：无法采集需登录的页面数据
通用模式截断：输出上限10000字符
来源可信度：T3级别（个人开发者维护），需关注更新动态

适合人群

电商运营/选品人员：监控品类趋势、分析竞品、发现爆款机会
市场研究人员：进行价格带分析、评分分布统计、review情感挖掘
数据分析师：获取结构化亚马逊数据用于深度分析
开发者：需要快速搭建网页采集管道的技术团队

常规风险

| 风险类型 | 等级 | 说明 |

|---------|------|------|

| SSRF（服务器端请求伪造） | 低 | 通用模式支持任意URL，建议增加白名单验证 |

| 资源耗尽 | 低 | 未限制容器资源，建议设置内存/CPU上限 |

| 反爬封禁 | 中 | 高频爬取可能触发亚马逊反爬机制，建议控制频率 |

| 数据合规 | 低 | 采集公开数据合规，但需遵守Amazon robots.txt及当地法规 |

| 来源可信度 | 中 | T3级别个人项目，建议审查版本变更后再升级 |

web-scraping e-commerce amazon market-research product-research competitor-analysis docker playwright crawlee data-extraction

Amazon Scraper 内容

assets文件夹

scripts文件夹

手动下载zip · 8.5 kB

amazon_handler.jstext/javascript

请选择文件