核心用法
Web Search Plus 是一款统一多提供商搜索与URL内容提取的技能,通过智能自动路由将用户查询分配到最优搜索源。用户只需执行 python3 scripts/search.py -q "查询内容" 即可完成搜索,无需手动选择提供商;内容提取则通过 python3 scripts/extract.py --url 网址 实现。
搜索功能:支持10家提供商——Serper(购物/本地)、Brave(独立索引)、Tavily(研究综合)、Querit(多语言)、Linkup(引证优先)、Exa(语义发现)、Firecrawl(抓取就绪)、Perplexity(直接答案)、You.com(RAG友好)、SearXNG(隐私/免费自托管)。系统按默认优先级自动路由,也可通过 -p 参数强制指定。
提取功能:自动在Firecrawl、Linkup、Tavily、Exa、You.com五家间降级容错,支持Markdown/HTML格式、图片保留、批量URL等选项。
显著优点
- 零摩擦启动:仅需任意一个提供商API密钥或SearXNG实例URL即可运行
- 智能路由:基于查询意图自动匹配最佳提供商(研究→Tavily/Exa,引证→Linkup,当前资讯→Brave/Serper,隐私优先→SearXNG)
- 成本灵活:SearXNG完全免费自托管,其余提供商多有免费额度
- 提取鲁棒性:五层降级机制确保内容获取成功率
- 隐私选项:SearXNG不依赖商业API,数据自主可控
潜在缺点与局限性
- 密钥管理复杂度:多提供商优势需积累多个API密钥才能充分发挥
- 路由黑盒风险:自动选择可能不符合特定场景的精细需求
- SearXNG运维成本:虽无API费用,但自托管需维护服务器实例
- 提供商稳定性差异:部分新兴服务(如Querit、Linkup)的长期可用性待观察
- 中文支持不均:部分提供商对中文语义理解和结果质量参差
适合人群
- 研究人员与知识工作者:需要跨源验证和引证追踪
- 开发者与RAG构建者:需要结构化、带来源的网页内容输入
- 隐私敏感用户:可通过SearXNG实现零商业API依赖
- 多语言信息需求者:Querit和Tavily对非英语内容支持较好
- 成本敏感场景:SearXNG免费方案适合批量低频查询
常规风险
- API密钥泄露:
.env文件需妥善保管,避免提交至版本控制 - SearXNG SSRF防护绕过:虽已内置基础防护(阻断云元数据端点、私有IP),但
SEARXNG_ALLOW_PRIVATE=1开启时需自行评估内网暴露风险 - 数据留存政策:各商业提供商对查询日志的保留策略不一,敏感查询建议优先SearXNG
- 提取内容合规:自动化抓取需遵守目标网站的robots.txt和服务条款
- 路由误判:关键场景建议
--explain-routing调试确认后再依赖自动选择