Web Search Pro

🔎 AI Agent的智能检索中枢

AI智能检索中枢,零API密钥即可启动,支持多引擎联邦搜索、浏览器渲染提取与结构化研究包生成,专为Agent设计的多层级信息获取系统。

收藏
31.2k
安装
6.4k
版本
2.0.0
CLS 安全性认证2026-05-17
点击查看完整报告 >

使用说明

核心功能

Web Search Pro 2.0 是一款面向AI Agent的多引擎检索系统,突破了传统搜索脚本的单一工具定位,构建起完整的智能信息获取架构。其核心价值体现在三个维度:

检索层 —— 采用可解释路由机制,整合DuckDuckGo零密钥基线与Tavily、Exa、Serper、SerpAPI等增强引擎,支持智能联邦查询(federated fanout),针对新闻、模糊查询、关键领域、研究对比等场景自动触发多源并行检索,并输出合并统计与去重遥测。

提取层 —— 提供三级内容获取能力:extract.mjs安全单页提取(可选浏览器回退)、render.mjs强制本地浏览器渲染、crawl.mjs多页BFS爬取、map.mjs站点结构发现。浏览器渲染通道默认关闭,启用后采用本地headless浏览器,支持同源策略与反爬虫拦截识别。

研究层 —— research.mjs并非面向人类的报告生成器,而是向上游模型输出结构化的「计划+证据包」,包含主题分类、研究维度、子问题意图、证据权威性评分、声明聚类与不确定性标注,实现检索与推理的职责分离。

显著优点

  • 零门槛启动:无需任何API密钥即可运行基线检索,显著降低试用成本
  • 安全设计纵深:Safe Fetch自动拒绝非HTTP(S)、含凭证、本地及私有地址;浏览器渲染可配置同源限制;挑战页面识别为降级而非虚假成功
  • 可观测性强:路由解释、健康状态、提供者冷却、缓存统计、诊断报告全透明输出
  • 结构化输出稳定:JSON Schema 1.0保持向后兼容,程序化集成友好
  • 联邦智能:基于查询类型的自动多源扩展,结果合并与去重机制完善

局限与风险

  • 基线能力边界:DuckDuckGo无密钥模式可能遭遇挑战页面,稳定性低于付费API
  • 浏览器渲染依赖:本地Node环境需满足headless浏览器运行条件,跨平台兼容性需验证
  • 研究层非终端输出:需要上游模型承担最终推理与叙事合成,非开箱即用的完整报告
  • 配置复杂度:多层配置优先级(CLI→环境变量→配置文件→默认值)与大量策略参数对新手形成学习曲线
  • 合规灰色地带:大规模爬取与站点映射需关注目标站点的robots.txt与服务条款

适合人群

AI Agent开发者、需要可控多源检索的研究自动化场景、对检索过程可解释性有要求的工程团队、以及希望在「免费基线」与「付费增强」间灵活切换的成本敏感型用户。

常规风险

运行时密钥暴露风险可通过capabilities.mjsreview.mjs审计缓解;浏览器通道的本地执行需确保隔离环境;联邦查询的多API调用可能产生预期外费用;缓存机制虽提升效率但需关注敏感数据滞留。

安全解读

核心用法

web-search-pro 是一个面向 AI Agent 的多层检索系统,而非简单搜索脚本。核心模块包括:

  • search.mjs: 多 Provider 路由搜索,支持联邦扇出(fanout)和可解释路由
  • extract.mjs / render.mjs: 单页内容提取,可选本地浏览器渲染
  • crawl.mjs / map.mjs: 多页 BFS 爬取与站点结构发现
  • research.mjs: 结构化研究层,输出「计划+证据包」供上游模型推理
  • doctor.mjs / capabilities.mjs / review.mjs: 运行时诊断与审查输出

零配置基线: 无需 API Key 即可使用 DuckDuckGo 基线搜索;可选配置 Tavily、Exa、Serper、SerpAPI 解锁深度搜索、新闻提取、站点映射等增强功能。

关键特性:

  • 三层路由 truth(Provider 能力事实 + 运行时策略 + 健康状态)
  • 联邦搜索:高价值场景(news/ambiguous/domain-critical/research/comparison)自动多 Provider 扇出
  • 浏览器渲染:本地 headless 浏览器回退,支持同源限制和反 Bot 检测
  • 结构化研究层:topic 分类、subquestion 分解、evidence 质量评分、claim 聚类

显著优点

1. 零依赖安全架构: 仅使用 Node.js 内置模块,无 npm 供应链风险
2. 隐私优先设计: API Key 通过环境变量配置,本地缓存 SHA256 哈希键化,无敏感数据硬编码

3. Agent 原生: JSON Schema 稳定输出、可解释路由、研究层边界清晰(skill 负责证据清洁,模型负责最终推理)

4. 可观测性: 内置 health/doctor/review/eval 全套诊断和基准测试工具

5. 灵活降级: 多 Provider 健康冷却、fallback 重排序、挑战页面明确标记失败而非隐藏成功

潜在局限

  • T3 来源可信度: 个人开发者维护,需关注上游更新和社区反馈
  • 浏览器渲染复杂度: 本地 Chrome/Chromium 依赖,跨域/反 Bot 场景需调优
  • DuckDuckGo 基线波动: 无 Key 方案受限于 DDG 反爬策略,挑战页面会标记为健康降级
  • 联邦搜索成本: 多 Provider 扇出增加延迟和 API 调用成本
  • 研究层非终稿: 输出为「证据包」而非人类可读报告,需上游模型二次加工

适合人群

  • 构建 AI Agent 的开发者,需要结构化、可解释的检索能力
  • 对供应链安全敏感,偏好零依赖架构的团队
  • 需要混合「免费基线+付费增强」搜索策略的场景
  • 有本地浏览器渲染需求(如 SPA 内容提取)的研究或自动化工作流

常规风险

| 风险类别 | 说明 | 缓解措施 |
|---------|------|---------|
| 供应链攻击 | 零依赖设计已大幅缓解 | 保持无 npm 依赖策略 |
| 子进程安全 | 浏览器/curl/python 子进程调用 | 已验证清理机制+超时控制,确保二进制路径可信 |
| 网络访问控制 | 多外部 API 访问 | URL 安全校验(禁私有 IP/元数据端点),可禁用不需要的 Provider |
| 缓存泄露 | 本地 JSON 缓存 | SHA256 哈希键化,目录隔离 |
| T3 维护风险 | 个人项目可持续性 | 关注 GitHub 更新,生产环境充分测试 |

Web Search Pro 内容

docs文件夹
releases文件夹
eval文件夹
cases文件夹
core文件夹
research文件夹
scripts文件夹
engines文件夹
lib文件夹
research文件夹
tests文件夹
手动下载zip · 182.9 kB
v2.0.0.mdtext/markdown
请选择文件