使用说明

核心功能

Web Search Pro 2.0 是一款面向AI Agent的多引擎检索系统，突破了传统搜索脚本的单一工具定位，构建起完整的智能信息获取架构。其核心价值体现在三个维度：

检索层 —— 采用可解释路由机制，整合DuckDuckGo零密钥基线与Tavily、Exa、Serper、SerpAPI等增强引擎，支持智能联邦查询（federated fanout），针对新闻、模糊查询、关键领域、研究对比等场景自动触发多源并行检索，并输出合并统计与去重遥测。

提取层 —— 提供三级内容获取能力：extract.mjs安全单页提取（可选浏览器回退）、render.mjs强制本地浏览器渲染、crawl.mjs多页BFS爬取、map.mjs站点结构发现。浏览器渲染通道默认关闭，启用后采用本地headless浏览器，支持同源策略与反爬虫拦截识别。

研究层 —— research.mjs并非面向人类的报告生成器，而是向上游模型输出结构化的「计划+证据包」，包含主题分类、研究维度、子问题意图、证据权威性评分、声明聚类与不确定性标注，实现检索与推理的职责分离。

显著优点

零门槛启动：无需任何API密钥即可运行基线检索，显著降低试用成本
安全设计纵深：Safe Fetch自动拒绝非HTTP(S)、含凭证、本地及私有地址；浏览器渲染可配置同源限制；挑战页面识别为降级而非虚假成功
可观测性强：路由解释、健康状态、提供者冷却、缓存统计、诊断报告全透明输出
结构化输出稳定：JSON Schema 1.0保持向后兼容，程序化集成友好
联邦智能：基于查询类型的自动多源扩展，结果合并与去重机制完善

局限与风险

基线能力边界：DuckDuckGo无密钥模式可能遭遇挑战页面，稳定性低于付费API
浏览器渲染依赖：本地Node环境需满足headless浏览器运行条件，跨平台兼容性需验证
研究层非终端输出：需要上游模型承担最终推理与叙事合成，非开箱即用的完整报告
配置复杂度：多层配置优先级（CLI→环境变量→配置文件→默认值）与大量策略参数对新手形成学习曲线
合规灰色地带：大规模爬取与站点映射需关注目标站点的robots.txt与服务条款

适合人群

AI Agent开发者、需要可控多源检索的研究自动化场景、对检索过程可解释性有要求的工程团队、以及希望在「免费基线」与「付费增强」间灵活切换的成本敏感型用户。

常规风险

运行时密钥暴露风险可通过capabilities.mjs与review.mjs审计缓解；浏览器通道的本地执行需确保隔离环境；联邦查询的多API调用可能产生预期外费用；缓存机制虽提升效率但需关注敏感数据滞留。

安全解读

核心用法

web-search-pro 是一个面向 AI Agent 的多层检索系统，而非简单搜索脚本。核心模块包括：

search.mjs: 多 Provider 路由搜索，支持联邦扇出(fanout)和可解释路由
extract.mjs / render.mjs: 单页内容提取，可选本地浏览器渲染
crawl.mjs / map.mjs: 多页 BFS 爬取与站点结构发现
research.mjs: 结构化研究层，输出「计划+证据包」供上游模型推理
doctor.mjs / capabilities.mjs / review.mjs: 运行时诊断与审查输出

零配置基线: 无需 API Key 即可使用 DuckDuckGo 基线搜索；可选配置 Tavily、Exa、Serper、SerpAPI 解锁深度搜索、新闻提取、站点映射等增强功能。

关键特性:

三层路由 truth（Provider 能力事实 + 运行时策略 + 健康状态）
联邦搜索：高价值场景（news/ambiguous/domain-critical/research/comparison）自动多 Provider 扇出
浏览器渲染：本地 headless 浏览器回退，支持同源限制和反 Bot 检测
结构化研究层：topic 分类、subquestion 分解、evidence 质量评分、claim 聚类

显著优点

1. 零依赖安全架构: 仅使用 Node.js 内置模块，无 npm 供应链风险
2. 隐私优先设计: API Key 通过环境变量配置，本地缓存 SHA256 哈希键化，无敏感数据硬编码
3. Agent 原生: JSON Schema 稳定输出、可解释路由、研究层边界清晰（skill 负责证据清洁，模型负责最终推理）
4. 可观测性: 内置 health/doctor/review/eval 全套诊断和基准测试工具
5. 灵活降级: 多 Provider 健康冷却、fallback 重排序、挑战页面明确标记失败而非隐藏成功

潜在局限

T3 来源可信度: 个人开发者维护，需关注上游更新和社区反馈
浏览器渲染复杂度: 本地 Chrome/Chromium 依赖，跨域/反 Bot 场景需调优
DuckDuckGo 基线波动: 无 Key 方案受限于 DDG 反爬策略，挑战页面会标记为健康降级
联邦搜索成本: 多 Provider 扇出增加延迟和 API 调用成本
研究层非终稿: 输出为「证据包」而非人类可读报告，需上游模型二次加工

适合人群

构建 AI Agent 的开发者，需要结构化、可解释的检索能力
对供应链安全敏感，偏好零依赖架构的团队
需要混合「免费基线+付费增强」搜索策略的场景
有本地浏览器渲染需求（如 SPA 内容提取）的研究或自动化工作流

常规风险

| 风险类别 | 说明 | 缓解措施 |

|---------|------|---------|

| 供应链攻击 | 零依赖设计已大幅缓解 | 保持无 npm 依赖策略 |

| 子进程安全 | 浏览器/curl/python 子进程调用 | 已验证清理机制+超时控制，确保二进制路径可信 |

| 网络访问控制 | 多外部 API 访问 | URL 安全校验（禁私有 IP/元数据端点），可禁用不需要的 Provider |

| 缓存泄露 | 本地 JSON 缓存 | SHA256 哈希键化，目录隔离 |

| T3 维护风险 | 个人项目可持续性 | 关注 GitHub 更新，生产环境充分测试 |

web-search ai-agent retrieval-system multi-engine browser-rendering structured-research duckduckgo tavily exa serper serpapi information-extraction web-crawling

Web Search Pro 内容

docs文件夹

releases文件夹

eval文件夹

cases文件夹

core文件夹

research文件夹

scripts文件夹

engines文件夹

lib文件夹

research文件夹

tests文件夹

手动下载zip · 182.9 kB

v2.0.0.mdtext/markdown

请选择文件