curated-search

🔍 权威技术文档极速精准检索

OpenClaw技术文档检索,白名单聚合MDN等权威资源,提供无广告、纯离线安全搜索,精准过滤网络垃圾信息。

收藏
3.2k
安装
1.4k
版本
v1.0.7
CLS 安全性认证2026-05-04
点击查看完整报告 >

使用说明

Curated Search Skill 是一款面向开发者的本地化技术文档全文检索工具,其核心用法围绕"白名单索引+本地搜索"架构展开。用户首先通过配置 config.yaml 定义允许爬取的权威域名(如 MDN、Python Docs、Node.js 文档等),运行爬虫构建本地 BM25 索引后,即可通过 curated-search.search 工具进行毫秒级全文检索。工具支持按域名过滤、相关性评分阈值控制(min_score)和分页查询,返回包含标题、摘要、URL 和评分的结构化结果,完全离线运行无需联网。

该技能的显著优点在于权威性纯净性的双重保障。通过严格的域名白名单机制,彻底过滤了传统搜索引擎的广告、SEO 垃圾和低质量内容,确保开发者获取的都是官方技术文档。同时,纯本地索引架构意味着用户的搜索行为、查询关键词和浏览记录完全保留在本地 data/ 目录,不存在隐私泄露风险。安全性方面,代码通过了严格的 SSRF 防护审查,内置 BLOCKED_IP_PATTERNS 自动阻断对私有地址(RFC 1918、回环地址)的访问,且遵守目标站点的 robots.txt 协议,避免对源站造成压力。

然而,该技能也存在一定局限性。首先是时效性约束:索引需要定期手动重建(通过 npm run crawl),无法获取文档网站的实时更新,适合查阅稳定 API 文档而非追踪最新技术动态。其次是范围限制:仅支持白名单内的技术文档站点,无法覆盖 Stack Overflow、GitHub Issues 等社区讨论内容。此外,技能依赖 Node.js 运行时环境,且索引文件可能占用较大存储空间(取决于配置的 max_documents),对轻量级使用场景不够友好。

该技能最适合离线开发环境企业内部知识库以及对隐私敏感的开发者。特别适合需要频繁查阅官方文档但网络环境受限(如内网开发、差旅场景)的工程师,以及希望建立团队统一技术文档检索入口的 DevOps 团队。对于教育场景,教师可构建特定技术栈(如 Python + React)的精选文档集,避免学生被网络信息干扰。

使用风险方面,尽管安全评级为 A 级,仍需注意以下常规风险:一是爬虫行为风险,若配置的 crawl.depthdelay 不合理,可能对目标文档站点造成过大负载,建议遵守各站点的爬取频率限制;二是存储与性能,大规模索引(数万文档)可能占用数百 MB 磁盘空间,搜索时内存占用随索引大小增长;三是依赖维护,技能依赖 minisearchjsdom 等 npm 包,需定期更新以修复潜在 CVE 漏洞;四是配置安全config.yaml 中的域名白名单若被篡改加入恶意站点,可能导致爬虫访问危险 URL,建议对配置文件进行权限管控(如设为只读)。

安全解读

核心用法

Curated Search Skill 提供域名白名单限制的全文搜索能力,专注于高质量技术文档索引。用户可通过 curated-search.search 工具执行精准查询,支持多维度参数控制:

  • 基础搜索query 参数支持关键词匹配,limit 控制返回数量(默认5,上限100)
  • 域名过滤domain 参数限定特定来源,如 developer.mozilla.org
  • 质量阈值min_score 过滤低相关性结果(0.0-1.0 BM25评分)
  • 分页支持offset 实现结果分批加载

返回结果包含标准化字段:标题、规范URL、200字符摘要、来源域名、BM25相关性评分及爬取时间戳。

显著优点

1. 权威信源保障:仅索引 MDN、Python 官方文档、Node.js、GitHub、Stack Overflow、Wikipedia 等高信誉域名,杜绝内容农场与SEO垃圾
2. 干净输出格式:结构化JSON响应,无广告干扰,可直接嵌入工作流

3. 安全机制完善:已实现 SSRF 防护(阻止私有IP)、robots.txt 遵守、速率限制,通过六维安全检测(A级,95分)

4. 隐私合规:符合 GDPR/CCPA,无敏感数据收集

5. 开源可控:MIT许可证,配置透明(config.yaml 白名单、爬取策略可审计)

潜在缺点与局限性

  • 覆盖范围有限:白名单机制导致长尾技术资料(个人博客、小众框架文档)无法检索
  • 索引时效依赖:需定期运行爬取任务(npm run crawl),否则内容可能滞后
  • T3来源风险:维护者为个人开发者 Qrusher,无组织背书,建议升级前审查变更
  • 评分非标准化:BM25分数虽通常在0-1范围,但非强制归一化,跨查询可比性有限
  • 无语义搜索:基于关键词的BM25匹配,不支持自然语言理解或向量相似度

适合人群

  • 开发者:快速查阅官方API文档、语言规范
  • 技术写作者:引用权威来源,确保内容准确性
  • 教育机构:为学生提供无干扰的技术资料检索环境
  • 企业知识库:构建内部技术文档搜索引擎的参考实现

常规风险

| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| 索引过期 | 文档更新后索引未同步 | 配置定期爬取任务 |
| 白名单遗漏 | 所需域名未在配置中 | 手动编辑 `config.yaml` 扩展 |
| 依赖供应链 | yaml包等第三方依赖 | 使用 package-lock.json 锁定版本 |
| 配置错误 | 路径、权限问题导致索引失败 | 参考错误代码表排查 |

历史安全问题(未使用的HTTP服务器组件)已于 v1.0.4 修复,当前版本无高危漏洞。

curated-search 内容

docs文件夹
scripts文件夹
src文件夹
手动下载zip · 94.0 kB
deployment.mdtext/markdown
请选择文件