使用说明

核心功能与用法

该技能提供了一套完整的网页数据提取解决方案，采用"轻量优先"的策略：对静态HTML页面使用 web_fetch 快速抓取；对动态加载、需要交互（点击、筛选、无限滚动、分页）或登录态的站点，则启用浏览器自动化流程。典型工作流包括：识别目标字段→单页测试→选择提取方式→标准化输出→多页序列化请求→去重→结果持久化。

显著优点

双模式灵活切换：静态抓取高效低耗，浏览器自动化覆盖复杂场景
结构化输出规范：优先输出JSON数组、CSV或简洁摘要，字段命名清晰
可靠性设计：禁止虚构字段、自动降级切换源、大型任务支持断点续存
资源管理：显式关闭浏览器标签页、工作区文件命名规范

潜在局限与风险

反爬机制：部分站点可能封禁IP或返回验证码，需人工介入或切换源
动态内容依赖：过度依赖DOM结构稳定性，页面改版可能导致提取失效
性能边界：大规模爬取需主动控制请求频率，未内置自动限速机制
登录态安全：涉及敏感站点的会话管理需用户自行评估泄露风险

适合人群

数据分析师、市场调研人员、竞品监控从业者、研究者，以及需要将非结构化网页内容转化为可用数据集的任何用户。特别适合处理招聘列表、商品目录、新闻聚合、学术论文库等场景。

常规风险提示

严格遵守目标网站的 robots.txt 与服务条款
避免高频请求对源站造成负载压力
敏感数据采集需确认合法授权与隐私合规

web-scraping data-extraction browser-automation html-parsing json-export csv-export dynamic-content pagination login-automation data-collection

Web Scraping 内容

暂无文件树

手动下载zip · 1.5 kB

contentapplication/octet-stream

请选择文件