核心用法
cn-web-search 通过 web_fetch 工具聚合 17 个搜索引擎的纯网页抓取能力,无需任何 API Key。用户根据场景选择对应引擎 URL,配合 extractMode="text" 和 maxChars 参数提取结构化文本。支持中文综合搜索(百度/360/搜狗/必应/头条)、英文搜索(Brave/DDG/Qwant 等)、公众号(搜狗微信/必应索引)、技术社区(Stack Overflow/GitHub)、财经投资(东方财富/集思录/财新)及 Wikipedia 知识百科。
显著优点
- 零成本门槛:全部免费,无 API 额度限制,适合个人开发者和小团队
- 实时信息获取:解决大模型训练数据截止问题,获取最新财报、资讯、技术动态
- 多源交叉验证:同一 query 并行查询 3-5 个引擎,提升数据准确性
- 场景覆盖全:从 A 股投研到技术排错,从公众号文章到学术百科,17 个引擎精准匹配
- 隐私友好选项:Brave Search、Mojeek、DDG 等独立索引引擎不追踪用户
潜在缺点与局限
- 依赖目标网站结构:搜索引擎改版或反爬升级会导致抓取失效
- 无结构化输出:返回原始 HTML 文本,需自行解析或依赖 LLM 提取关键信息
- 速率与稳定性:纯网页抓取受限于目标站点的响应速度和可用性,无 SLA 保障
- 法律灰色地带:大规模抓取可能触发搜索引擎反爬机制,存在 IP 封禁风险
- 中文质量参差:部分引擎(如百度)广告和 SEO 内容较多,需人工筛选
适合人群
- 无法承担 API 费用的个人开发者、学生、独立研究者
- 需要实时财经/投资数据的 A 股投资者、投研分析师
- 关注中文互联网内容(公众号、头条)的内容运营者
- 技术问题排查开发者(Stack Overflow/GitHub 场景)
- 隐私敏感用户(优先使用 Brave/Mojeek/DDG 组合)
常规风险
| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| 服务中断 | 目标搜索引擎改版或封禁抓取 | 多引擎冗余,监控可用性 |
| 数据污染 | 广告、SEO 垃圾内容混入结果 | 多源交叉验证,人工复核关键数据 |
| 法律合规 | 违反目标站 ToS 的抓取行为 | 控制请求频率,遵守 robots.txt |
| 信息时效 | 部分引擎缓存导致数据延迟 | 优先使用头条、百度等实时性强的引擎 |
| 解析失败 | HTML 结构变化导致提取异常 | 设置降级策略,切换备用引擎 |