核心功能
Amazon Scraper 是基于 Docker + Crawlee + Playwright 的高性能容器化爬虫,专为亚马逊数据采集优化,同时支持通用动态网页爬取。具备两种核心模式:
Amazon模式(amazon_handler.js)
自动识别三类页面并提取结构化数据:
- 畅销榜/新品榜/飙升榜(
/zgbs/、/zg/new-releases/、/zg/movers-and-shakers/):获取排名、ASIN、价格、评分、评论数,但不含月销量 - 搜索结果页(
/s?k=):获取标题、价格、评分、boughtPastMonth月销量、是否广告位 - 产品详情页(
/dp/):最全字段,含BSR排名、品牌、卖点、月销量、上架时间、类目层级等
通用模式(main_handler.js)
针对非亚马逊网站,使用 Playwright 渲染后提取 document.body.innerText,输出上限10000字符。
显著优点
- 智能路由:根据URL自动识别页面类型,无需手动切换
- 反爬设计:Docker沙箱隔离、无Cookie残留、模拟真实浏览器行为、自动滚动懒加载
- 数据完整性:支持多页爬取(
--pages参数),单次最多约30-50个产品 - 结构化输出:JSON格式含状态码、品类名、抓取时间、产品数组
- 决策辅助:内置完整意图映射表,自动为用户选择最优爬取策略
局限与风险
- 数据源限制:Best Sellers页面本身不展示月销量,必须配合搜索页或详情页才能获取完整数据
- 规模限制:单页产品数量有限,大规模采集需多轮请求
- 登录屏障:不支持需要登录的页面(如亚马逊后台、会员专属内容)
- 冷启动成本:Docker容器启动约10秒,不适合极高频实时调用
- 通用模式精简:仅返回纯文本,无结构化字段提取
适合人群
跨境电商卖家、选品分析师、竞品调研人员、市场研究人员,以及需要从亚马逊或动态网页提取结构化数据的开发者。
安全考量
基于 Docker 容器隔离运行,Playwright 浏览器每次全新启动无指纹残留,反爬策略属于行业常规水平。但大规模高频爬取仍可能触发亚马逊反爬机制,建议合理控制请求频率。