核心用法
serper 是一个基于 Serper API 的 Google 搜索技能,不仅能返回搜索结果,还会自动抓取并提取网页的完整正文内容(使用 trafilatura 库),而非仅提供摘要片段。
两种搜索模式
- default(默认模式):全时段搜索,返回 5 条结果,适用于一般性问题、产品研究、技术文档、教程等非时效性内容
- current(新闻模式):近一周搜索(3 条)+ Google 新闻(3 条),适用于新闻事件、最新动态、突发消息等时效性内容
本地化控制
- 英文查询无需额外参数,默认全球范围
- 非英文查询必须设置
--gl(国家代码)和--hl(语言代码),如德语查询需加--gl de --hl de
典型调用
python3 scripts/search.py -q "query" [--mode current] [--gl de --hl de]
显著优点
1. 全文本提取:自动抓取原网页并提取干净正文,省去二次调用网页抓取工具
2. 双模式设计:清晰区分时效性与非时效性需求,避免结果混杂
3. 多语言支持:完善的本地化参数控制,支持全球主要语言
4. 结构化输出:JSON 格式,包含标题、URL、来源类型、完整内容、日期等字段
5. 智能降级:页面提取失败时自动回退到搜索摘要
潜在缺点与局限性
1. 依赖外部 API:需 Serper API 密钥,存在服务可用性和速率限制风险
2. 内容提取限制:trafilatura 对某些网站(如重度 JavaScript 渲染页面)提取效果可能不佳
3. 结果数量固定:default 模式仅 5 条、current 模式仅 6 条,深度研究时可能不足
4. 无高级搜索语法:不支持 site:、filetype: 等 Google 高级搜索运算符
5. 成本因素:Serper API 为付费服务,高频使用产生费用
适合人群
- 需要实时信息的 AI 助手/Agent 开发者
- 进行新闻追踪、竞品调研、产品比价的研究人员
- 需要多语言搜索能力的国际化应用场景
- 构建RAG 系统需要高质量网页文本作为知识源的技术团队
常规风险
| 风险类型 | 说明 |
|---------|------|
| API 密钥泄露 | `.env` 文件需妥善保管,避免硬编码提交到版本控制 |
| 内容版权 | 提取的网页内容受原站版权保护,商用需注意合规 |
| 信息时效 | 即使 current 模式也存在数小时延迟,非实时数据 |
| 恶意网站 | 自动抓取可能访问到含恶意内容的页面,建议在隔离环境运行 |
| 速率限制 | 高频调用可能触发 Serper API 限制,需实现重试机制 |