serper

🔍 Google 搜索 + 全文自动提取

Search榜 #15

通过 Serper API 实现 Google 搜索,并自动提取完整网页内容,支持双语搜索与新闻模式,适合实时信息获取与深度研究。

收藏
10.6k
安装
4.2k
版本
3.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

serper 是一个基于 Serper API 的 Google 搜索技能,不仅能返回搜索结果,还会自动抓取并提取网页的完整正文内容(使用 trafilatura 库),而非仅提供摘要片段。

两种搜索模式

  • default(默认模式):全时段搜索,返回 5 条结果,适用于一般性问题、产品研究、技术文档、教程等非时效性内容
  • current(新闻模式):近一周搜索(3 条)+ Google 新闻(3 条),适用于新闻事件、最新动态、突发消息等时效性内容

本地化控制

  • 英文查询无需额外参数,默认全球范围
  • 非英文查询必须设置 --gl(国家代码)和 --hl(语言代码),如德语查询需加 --gl de --hl de

典型调用

python3 scripts/search.py -q "query" [--mode current] [--gl de --hl de]

显著优点

1. 全文本提取:自动抓取原网页并提取干净正文,省去二次调用网页抓取工具
2. 双模式设计:清晰区分时效性与非时效性需求,避免结果混杂

3. 多语言支持:完善的本地化参数控制,支持全球主要语言

4. 结构化输出:JSON 格式,包含标题、URL、来源类型、完整内容、日期等字段

5. 智能降级:页面提取失败时自动回退到搜索摘要

潜在缺点与局限性

1. 依赖外部 API:需 Serper API 密钥,存在服务可用性和速率限制风险
2. 内容提取限制:trafilatura 对某些网站(如重度 JavaScript 渲染页面)提取效果可能不佳

3. 结果数量固定:default 模式仅 5 条、current 模式仅 6 条,深度研究时可能不足

4. 无高级搜索语法:不支持 site:、filetype: 等 Google 高级搜索运算符

5. 成本因素:Serper API 为付费服务,高频使用产生费用

适合人群

  • 需要实时信息的 AI 助手/Agent 开发者
  • 进行新闻追踪竞品调研产品比价的研究人员
  • 需要多语言搜索能力的国际化应用场景
  • 构建RAG 系统需要高质量网页文本作为知识源的技术团队

常规风险

| 风险类型 | 说明 |
|---------|------|
| API 密钥泄露 | `.env` 文件需妥善保管,避免硬编码提交到版本控制 |
| 内容版权 | 提取的网页内容受原站版权保护,商用需注意合规 |
| 信息时效 | 即使 current 模式也存在数小时延迟,非实时数据 |
| 恶意网站 | 自动抓取可能访问到含恶意内容的页面,建议在隔离环境运行 |
| 速率限制 | 高频调用可能触发 Serper API 限制,需实现重试机制 |

serper 内容

暂无文件树

手动下载zip · 5.8 kB
contentapplication/octet-stream
请选择文件