使用说明

核心用法

TinyFish CLI 是一套分层设计的网页自动化工具集，通过 search → fetch → agent → browser 四级能力实现从轻量查询到深度浏览器控制的全覆盖：

search：快速获取排名搜索结果（标题、URL、摘要），支持地域/语言定向
fetch：并行提取多 URL 纯净内容（自动去广告、导航栏），输出 Markdown/JSON/HTML
agent：自然语言驱动的真实浏览器自动化，支持点击、填表、导航、结构化数据提取，可批量提交和异步管理
browser：原始 CDP 远程浏览器会话，供 Playwright/Puppeteer 直接操控

典型工作流包括「search→fetch」快速研究、「search→agent」深度提取，以及「fetch→agent」或「agent→browser」的能力递进升级。

显著优点

渐进式架构：按需从轻到重 escalation，兼顾速度与成本
自然语言交互：agent 层无需编写复杂选择器或脚本，降低使用门槛
反爬友好：agent/browser 层使用真实浏览器，可应对动态渲染和 bot 防护
批量与并行：fetch 支持多 URL 并行，agent 支持 CSV 批量提交和独立任务并行执行
结构化输出：agent 支持通过自然语言指定 JSON Schema，直接获取结构化数据

潜在缺点与局限性

成本阶梯：从 search 的最低成本到 browser 的最高成本，深度任务费用较高
异步复杂性：agent 默认 SSE 流式输出，需处理 COMPLETE 事件提取结果，增加集成复杂度
依赖外部服务：所有操作需 TinyFish API 密钥，存在服务商可用性依赖
学习曲线：四级工具的选择策略需要用户理解各层能力边界

适合人群

数据分析师、研究员：需要从多源网页批量提取结构化数据
产品经理/运营：竞品价格监控、舆情收集
开发者：构建自动化工作流、测试场景，需要 CDP 级浏览器控制
反爬场景需求者：面对 JavaScript 渲染或防护严格的网站

常规风险

API 密钥安全：需妥善保管 TINYFISH_API_KEY，避免泄露
合规风险：网页抓取需遵守目标网站的 robots.txt 及服务条款
成本失控：agent/browser 层按使用计费，批量任务需关注用量
数据时效性：提取结果依赖目标网站实时状态，可能存在延迟或变更

安全解读

核心用法

TinyFish CLI 提供四档递进式工具链：search（快速搜索）→ fetch（静态内容抓取）→ agent（智能浏览器自动化）→ browser（原始 CDP 控制）。用户根据任务复杂度选择工具，从轻量到重型逐步升级。

典型工作流：

研究型：search 发现相关 URL → fetch 批量获取清洗后的正文内容
深度提取：search 定位目标站点 → agent 模拟真人操作、填充表单、提取结构化 JSON
复杂自动化：agent 无法处理时，browser 提供原始 WebSocket CDP 连接，支持 Playwright/Puppeteer 完全自定义

agent 是核心能力：用自然语言描述目标（如"提取所有产品价格作为 JSON"），系统自动完成点击、滚动、分页等操作。支持批量任务提交、异步轮询、取消管理等企业级功能。

---

显著优点

| 优势 | 说明 |

|------|------|

| **自然语言驱动** | 无需编写 CSS/XPath 选择器，用日常语言描述提取需求 |

| **反爬虫对抗** | 真实浏览器环境，可处理 Cloudflare、ReCaptcha 等保护站点 |

| **工具链分层** | 四档工具精准匹配需求，避免过度消耗资源 |

| **批量与异步** | 支持 CSV 批量提交、异步任务队列，适合大规模数据采集 |

| **多格式输出** | Markdown、JSON、HTML 可选，保留链接和图片元数据 |

| **并行优化** | fetch 和 agent 均支持多 URL 并行，显著提速 |

---

潜在缺点与局限性

成本阶梯：agent 和 browser 为"Higher/Highest"成本档位，大规模使用需预算规划
速度权衡：动态站点必须等待 agent 渲染，无法像 fetch 一样秒级响应
服务依赖：完全依赖 TinyFish 云端基础设施，存在供应商锁定风险
合规灰色地带：抓取行为本身可能触及目标网站的 ToS，用户需自行承担法律评估责任
无本地缓存：每次调用均走云端 API，重复抓取相同 URL 产生冗余费用

---

适合人群

市场情报分析师：竞品价格监控、产品目录批量采集
学术研究：论文数据爬取、多源信息聚合
自动化测试工程师：表单填充、端到端流程验证
无代码/低代码用户：不愿维护爬虫基础设施，偏好托管服务

---

常规风险

| 风险类别 | 具体说明 |

|----------|----------|

| **API 密钥泄露** | 若误将 `TINYFISH_API_KEY` 硬编码提交至版本控制，可能导致账户被盗刷 |

| **数据隐私** | 抓取内容暂存于 TinyFish 服务端，敏感信息可能跨境传输 |

| **目标站点封禁** | 高频抓取可能触发 IP 封禁，影响本机或企业网络正常访问 |

| **服务中断** | 商业服务存在停机、调价、功能变更等不确定性 |

| **法律合规** | 抓取受版权保护内容或个人信息可能违反 GDPR/CCPA/robots.txt |

---

安全认证摘要

本次 CLS-Certify 扫描评级 S 级（88分），属优秀安全级别。Skill 为纯 Markdown 文档（T-MD 分类），零可执行代码，零外部依赖，零敏感信息泄露。所有 URL 均为示例性质，无实际 API 调用。建议用户：通过环境变量管理密钥、定期轮换、查阅 TinyFish 官方服务条款确认数据留存政策。

web-scraping browser-automation data-extraction cli-tool cdp headless-browser api-integration

TinyFish Web Agent 内容

手动下载zip · 3.1 kB

SKILL.mdtext/markdown

请选择文件