TinyFish Web Agent

🐟 自然语言驱动的网页自动化专家

TinyFish CLI 提供四层渐进式网页工具(search/fetch/agent/browser),支持自然语言指令完成搜索、内容提取、浏览器自动化及 CDP 级操控,适合数据采集与反爬场景。

收藏
11k
安装
3k
版本
1.0.3
CLS 安全性认证2026-05-06
点击查看完整报告 >

使用说明

核心用法

TinyFish CLI 是一套分层设计的网页自动化工具集,通过 search → fetch → agent → browser 四级能力实现从轻量查询到深度浏览器控制的全覆盖:

  • search:快速获取排名搜索结果(标题、URL、摘要),支持地域/语言定向
  • fetch:并行提取多 URL 纯净内容(自动去广告、导航栏),输出 Markdown/JSON/HTML
  • agent:自然语言驱动的真实浏览器自动化,支持点击、填表、导航、结构化数据提取,可批量提交和异步管理
  • browser:原始 CDP 远程浏览器会话,供 Playwright/Puppeteer 直接操控

典型工作流包括「search→fetch」快速研究、「search→agent」深度提取,以及「fetch→agent」或「agent→browser」的能力递进升级。

显著优点

  • 渐进式架构:按需从轻到重 escalation,兼顾速度与成本
  • 自然语言交互:agent 层无需编写复杂选择器或脚本,降低使用门槛
  • 反爬友好:agent/browser 层使用真实浏览器,可应对动态渲染和 bot 防护
  • 批量与并行:fetch 支持多 URL 并行,agent 支持 CSV 批量提交和独立任务并行执行
  • 结构化输出:agent 支持通过自然语言指定 JSON Schema,直接获取结构化数据

潜在缺点与局限性

  • 成本阶梯:从 search 的最低成本到 browser 的最高成本,深度任务费用较高
  • 异步复杂性:agent 默认 SSE 流式输出,需处理 COMPLETE 事件提取结果,增加集成复杂度
  • 依赖外部服务:所有操作需 TinyFish API 密钥,存在服务商可用性依赖
  • 学习曲线:四级工具的选择策略需要用户理解各层能力边界

适合人群

  • 数据分析师、研究员:需要从多源网页批量提取结构化数据
  • 产品经理/运营:竞品价格监控、舆情收集
  • 开发者:构建自动化工作流、测试场景,需要 CDP 级浏览器控制
  • 反爬场景需求者:面对 JavaScript 渲染或防护严格的网站

常规风险

  • API 密钥安全:需妥善保管 TINYFISH_API_KEY,避免泄露
  • 合规风险:网页抓取需遵守目标网站的 robots.txt 及服务条款
  • 成本失控:agent/browser 层按使用计费,批量任务需关注用量
  • 数据时效性:提取结果依赖目标网站实时状态,可能存在延迟或变更

安全解读

核心用法

TinyFish CLI 提供四档递进式工具链:search(快速搜索)→ fetch(静态内容抓取)→ agent(智能浏览器自动化)→ browser(原始 CDP 控制)。用户根据任务复杂度选择工具,从轻量到重型逐步升级。

典型工作流

  • 研究型:search 发现相关 URL → fetch 批量获取清洗后的正文内容
  • 深度提取:search 定位目标站点 → agent 模拟真人操作、填充表单、提取结构化 JSON
  • 复杂自动化:agent 无法处理时,browser 提供原始 WebSocket CDP 连接,支持 Playwright/Puppeteer 完全自定义

agent 是核心能力:用自然语言描述目标(如"提取所有产品价格作为 JSON"),系统自动完成点击、滚动、分页等操作。支持批量任务提交、异步轮询、取消管理等企业级功能。

---

显著优点

| 优势 | 说明 |
|------|------|
| **自然语言驱动** | 无需编写 CSS/XPath 选择器,用日常语言描述提取需求 |
| **反爬虫对抗** | 真实浏览器环境,可处理 Cloudflare、ReCaptcha 等保护站点 |
| **工具链分层** | 四档工具精准匹配需求,避免过度消耗资源 |
| **批量与异步** | 支持 CSV 批量提交、异步任务队列,适合大规模数据采集 |
| **多格式输出** | Markdown、JSON、HTML 可选,保留链接和图片元数据 |
| **并行优化** | fetch 和 agent 均支持多 URL 并行,显著提速 |

---

潜在缺点与局限性

  • 成本阶梯:agent 和 browser 为"Higher/Highest"成本档位,大规模使用需预算规划
  • 速度权衡:动态站点必须等待 agent 渲染,无法像 fetch 一样秒级响应
  • 服务依赖:完全依赖 TinyFish 云端基础设施,存在供应商锁定风险
  • 合规灰色地带:抓取行为本身可能触及目标网站的 ToS,用户需自行承担法律评估责任
  • 无本地缓存:每次调用均走云端 API,重复抓取相同 URL 产生冗余费用

---

适合人群

  • 市场情报分析师:竞品价格监控、产品目录批量采集
  • 学术研究:论文数据爬取、多源信息聚合
  • 自动化测试工程师:表单填充、端到端流程验证
  • 无代码/低代码用户:不愿维护爬虫基础设施,偏好托管服务

---

常规风险

| 风险类别 | 具体说明 |
|----------|----------|
| **API 密钥泄露** | 若误将 `TINYFISH_API_KEY` 硬编码提交至版本控制,可能导致账户被盗刷 |
| **数据隐私** | 抓取内容暂存于 TinyFish 服务端,敏感信息可能跨境传输 |
| **目标站点封禁** | 高频抓取可能触发 IP 封禁,影响本机或企业网络正常访问 |
| **服务中断** | 商业服务存在停机、调价、功能变更等不确定性 |
| **法律合规** | 抓取受版权保护内容或个人信息可能违反 GDPR/CCPA/robots.txt |

---

安全认证摘要

本次 CLS-Certify 扫描评级 S 级(88分),属优秀安全级别。Skill 为纯 Markdown 文档(T-MD 分类),零可执行代码,零外部依赖,零敏感信息泄露。所有 URL 均为示例性质,无实际 API 调用。建议用户:通过环境变量管理密钥、定期轮换、查阅 TinyFish 官方服务条款确认数据留存政策。

TinyFish Web Agent 内容

手动下载zip · 3.1 kB
SKILL.mdtext/markdown
请选择文件