核心功能
Amazon Scraper 是一款基于 Docker + Crawlee + Playwright 的高性能数据采集工具,专为亚马逊电商数据采集优化,同时支持通用动态网页爬取。
核心用法
工具提供两种工作模式:
1. Amazon模式(amazon_handler.js)- 智能识别三种页面类型:
- 畅销榜(
/zgbs/):获取排名、ASIN、价格、评分、评论数,适合选品调研 - 搜索结果(
/s?k=):包含关键字段 boughtPastMonth(月销量),适合竞品分析 - 产品详情(
/dp/):最全数据,含BSR、品牌、卖点、上市时间、详细规格
2. 通用模式(main_handler.js)- 任意动态网页文本提取,输出上限10000字符
显著优点
- 数据权威性:直接抓取亚马逊官方页面,非第三方API,数据实时准确
- 反爬能力:Docker沙箱隔离、Playwright模拟真实浏览器、自动清除Cookie、支持重试机制
- 字段丰富:特别是 boughtPastMonth(过去一个月购买量)字段,对选品决策极具价值
- 架构成熟:基于业界标准的 Crawlee + Playwright 技术栈,可维护性强
潜在局限
- 数据完整性:Best Sellers页面本身不显示月销量,需配合搜索页或详情页获取
- 规模限制:单页约30-50个产品,大规模采集需多页遍历
- 访问限制:不支持登录态页面,无法获取个性化推荐或会员价格
- 性能开销:Docker冷启动约10秒,不适合极低延迟场景
- 字符上限:通用模式输出限制10000字符,长内容需分段处理
适合人群
- 跨境电商卖家:选品调研、竞品监控、价格追踪
- 市场分析师:品类趋势分析、爆款挖掘、市场机会评估
- 电商运营:ASIN详情分析、评论情感挖掘、卖点提炼
- 数据研究员:需要结构化亚马逊数据的学术或商业研究
风险提示
- 频繁爬取可能触发亚马逊反爬机制,建议控制请求频率
- 需遵守亚马逊 robots.txt 及使用条款,商业用途建议咨询法律意见
- 月销量数据为亚马逊主动展示的估算范围(如"1K+"),非精确数值
- 数据仅反映抓取时刻状态,价格波动和库存变化需实时更新