核心用法
TinyFish CLI 是一套分层设计的网页自动化工具集,通过 search → fetch → agent → browser 四级能力实现从轻量查询到深度浏览器控制的全覆盖:
- search:快速获取排名搜索结果(标题、URL、摘要),支持地域/语言定向
- fetch:并行提取多 URL 纯净内容(自动去广告、导航栏),输出 Markdown/JSON/HTML
- agent:自然语言驱动的真实浏览器自动化,支持点击、填表、导航、结构化数据提取,可批量提交和异步管理
- browser:原始 CDP 远程浏览器会话,供 Playwright/Puppeteer 直接操控
典型工作流包括「search→fetch」快速研究、「search→agent」深度提取,以及「fetch→agent」或「agent→browser」的能力递进升级。
显著优点
- 渐进式架构:按需从轻到重 escalation,兼顾速度与成本
- 自然语言交互:agent 层无需编写复杂选择器或脚本,降低使用门槛
- 反爬友好:agent/browser 层使用真实浏览器,可应对动态渲染和 bot 防护
- 批量与并行:fetch 支持多 URL 并行,agent 支持 CSV 批量提交和独立任务并行执行
- 结构化输出:agent 支持通过自然语言指定 JSON Schema,直接获取结构化数据
潜在缺点与局限性
- 成本阶梯:从 search 的最低成本到 browser 的最高成本,深度任务费用较高
- 异步复杂性:agent 默认 SSE 流式输出,需处理
COMPLETE事件提取结果,增加集成复杂度 - 依赖外部服务:所有操作需 TinyFish API 密钥,存在服务商可用性依赖
- 学习曲线:四级工具的选择策略需要用户理解各层能力边界
适合人群
- 数据分析师、研究员:需要从多源网页批量提取结构化数据
- 产品经理/运营:竞品价格监控、舆情收集
- 开发者:构建自动化工作流、测试场景,需要 CDP 级浏览器控制
- 反爬场景需求者:面对 JavaScript 渲染或防护严格的网站
常规风险
- API 密钥安全:需妥善保管
TINYFISH_API_KEY,避免泄露 - 合规风险:网页抓取需遵守目标网站的 robots.txt 及服务条款
- 成本失控:agent/browser 层按使用计费,批量任务需关注用量
- 数据时效性:提取结果依赖目标网站实时状态,可能存在延迟或变更