核心用法
Web Search Pro 是一款面向 AI Agent 的联邦搜索检索引擎,采用「免密钥基线 + 可选高级提供商」的弹性架构。核心工作流包括:
- 实时搜索:
search.mjs支持通用搜索、新闻、文档、代码等多场景,内置智能路由选择最优提供商 - 深度提取:
extract.mjs从任意 URL 抓取结构化内容,crawl.mjs实现站点级爬取,map.mjs生成站点地图 - 研究模式:
research.mjs提供主题信号分析、研究轴线规划,输出带引用的结构化证据包 - 诊断工具:
doctor.mjs/bootstrap.mjs/capabilities.mjs完成环境检测与能力评估
联邦搜索机制是其差异化亮点——多提供商并发(fanout)后自动去重、交叉验证,暴露量化增益指标(额外提供商数、恢复结果数、交叉验证率、重复节省率),让 Agent 获得可解释的路由决策。
显著优点
1. 零门槛启动:DDG + fetch 作为无密钥基线,5 分钟内完成首次成功检索
2. 提供商生态丰富:集成 Tavily(深度搜索)、Exa(语义)、Querit(多语言地理)、Serper(类Google)、Brave、SerpAPI(含百度)、You.com、SearXNG(自托管)、Perplexity Sonar 等 10+ 引擎
3. Agent-native 设计:所有输出均为 JSON/结构化格式,含 routingSummary federated.value cached 等元数据,便于下游 Agent 消费
4. 多路径接入 Perplexity:支持原生 API、OpenRouter、KiloCode、自定义网关四种方式,适配不同网络环境
5. 隐私友好选项:SearXNG 自托管支持,满足数据不出域需求
潜在局限
- 基线质量波动:DDG 无密钥搜索在复杂查询或特定地区可能受限,关键场景建议配置付费提供商
- 配置复杂度:10+ 提供商各有专长,初期需理解
TAVILY_API_KEYvsEXA_API_KEY等选型逻辑 - 依赖 Node.js 环境:纯前端/边缘场景需额外适配
- 中文搜索优化:虽支持 SerpAPI-Baidu 和 Querit 多语言,但相比原生百度/搜狗体验仍有差距
适合人群
- AI Agent 开发者:需要为 LLM 提供实时、可引用、结构化的外部知识注入
- 研究型团队:竞品分析、技术文档追踪、行业动态监控
- 隐私敏感用户:希望自托管 SearXNG 替代商业搜索 API
- 多语言场景:Querit 原生地理与语言过滤适合全球化产品调研
常规风险
| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| API 密钥泄露 | 多密钥管理增加暴露面 | 使用环境变量,定期轮换,避免提交到版本控制 |
| 搜索结果偏见 | 不同提供商算法偏见差异 | 启用联邦模式交叉验证,人工抽检关键结论 |
| 速率限制 | 免费/低价 tier 有调用上限 | 生产环境配置多提供商 failover |
| 内容合规 | 爬取/提取可能触及 Robots.txt 或版权 | 遵守站点爬虫协议,商业用途确认授权 |
| 依赖可用性 | 第三方搜索服务宕机影响业务 | 监控 `health.mjs`,基线 + 多提供商冗余 |