使用说明

核心用法

Web Search Skill 是一款通用网络搜索技能，通过 main() 函数统一入口，支持三种操作模式：

基础搜索 (action: search)：快速获取搜索结果列表
深度搜索 (action: deep_search)：搜索并抓取详情页内容
网页爬取 (action: crawl)：直接提取指定URL页面内容

配置极简，仅需 query/url 和可选的 num_results（默认5，最大20）、region 参数即可调用。

显著优点

1. 零门槛使用：无需申请任何API密钥，通过浏览器自动化和网页抓取技术直接访问搜索引擎
2. 多引擎智能调度：四层 fallback 策略（baidusearch库 → Playwright+百度 → DuckDuckGo → Bing），确保高可用性
3. 异步高性能：基于 Playwright 的浏览器自动化，支持并发请求
4. 结构化输出：返回包含 title、href、body 的标准化结果，便于下游处理
5. 深度内容提取：集成 crawl4ai 实现详情页内容抓取，超越传统搜索摘要

潜在缺点与局限性

首启动成本：首次使用需下载 Chromium 浏览器（约100MB）
反爬风险：依赖浏览器自动化，可能触发搜索引擎反爬机制导致临时封禁
稳定性波动：搜索结果受引擎算法、地理位置、网络环境影响，无法保证一致性
性能开销：相比API直连，Playwright模式内存和CPU占用更高
合规灰色地带：大规模爬取可能违反搜索引擎服务条款

适合人群

个人开发者/研究者：快速验证信息、原型开发
小型项目：预算有限、不愿维护API密钥的场景
自动化工作流：需要实时网络信息的LLM Agent、RAG系统

常规风险

IP封禁：高频请求可能导致搜索引擎临时限制访问
内容准确性：抓取结果未经人工审核，存在过时或错误信息风险
依赖维护：依赖多个第三方库（baidusearch、crawl4ai、playwright），版本兼容性需关注
隐私暴露：搜索查询通过第三方库传输，存在潜在的隐私泄露风险

安全解读

核心功能

Web Search Skill 是一款无需API密钥的通用网络搜索工具，支持百度、必应、DuckDuckGo三大主流搜索引擎，通过浏览器自动化与智能降级策略实现高可用搜索服务。

主要用法

基础搜索: 传入action: search与关键词，获取结构化结果（标题、链接、摘要）
深度搜索: deep_search模式自动爬取TOP结果网页，提取完整正文内容
网页爬取: 直接解析指定URL，支持任意网站的内容提取

参数灵活可控：结果数量（1-20）、区域设置、超时配置。返回格式统一为JSON，包含success状态与详细元数据。

显著优点

| 维度 | 优势 |

|------|------|

| **零成本** | 无需申请API密钥，开箱即用 |

| **高可用** | 四级降级策略（baidusearch → Playwright → DuckDuckGo → Bing）确保搜索成功率 |

| **深度整合** | 集成crawl4ai实现网页正文智能提取，支持长内容摘要 |

| **异步性能** | Playwright浏览器自动化，并发请求效率高 |

| **合规友好** | 无用户数据收集，仅传输搜索查询与标准UA头 |

潜在局限

1. 依赖较重: Playwright需首次下载Chromium（~100MB），冷启动耗时
2. 反爬风险: 高频搜索可能触发搜索引擎临时封禁（IP/UA限制）
3. 结果波动: 不同引擎算法差异大，同一查询返回结果可能不一致
4. 国际局限: 百度优先策略对中文优化更好，英文/学术搜索建议显式指定Bing
5. 动态内容: 部分JS渲染页面爬取效果依赖crawl4ai解析能力

适合人群

AI应用开发者: 为LLM/RAG系统补充实时外部知识
研究人员: 快速获取最新论文、新闻、技术动态
自动化工作流: 监控特定话题、竞品信息、舆情追踪
教育场景: 编程教学、信息素养训练中的搜索工具

常规风险

网络依赖: 必须联网，内网/离线环境不可用
频率管理: 建议添加指数退避重试，避免触发反爬
内容审核: 搜索引擎返回结果未过滤，敏感内容需下游自行处理
稳定性: 搜索引擎页面结构变更可能导致解析失效（需关注版本更新）

search web-scraping baidu bing duckduckgo playwright no-api-key async crawl4ai automation

Web Search 内容

scripts文件夹

手动下载zip · 7.3 kB

__init__.pytext/plain

请选择文件