使用说明

Curated Search Skill 是一款面向开发者的本地化技术文档全文检索工具，其核心用法围绕"白名单索引+本地搜索"架构展开。用户首先通过配置 config.yaml 定义允许爬取的权威域名（如 MDN、Python Docs、Node.js 文档等），运行爬虫构建本地 BM25 索引后，即可通过 curated-search.search 工具进行毫秒级全文检索。工具支持按域名过滤、相关性评分阈值控制（min_score）和分页查询，返回包含标题、摘要、URL 和评分的结构化结果，完全离线运行无需联网。

该技能的显著优点在于权威性与纯净性的双重保障。通过严格的域名白名单机制，彻底过滤了传统搜索引擎的广告、SEO 垃圾和低质量内容，确保开发者获取的都是官方技术文档。同时，纯本地索引架构意味着用户的搜索行为、查询关键词和浏览记录完全保留在本地 data/ 目录，不存在隐私泄露风险。安全性方面，代码通过了严格的 SSRF 防护审查，内置 BLOCKED_IP_PATTERNS 自动阻断对私有地址（RFC 1918、回环地址）的访问，且遵守目标站点的 robots.txt 协议，避免对源站造成压力。

然而，该技能也存在一定局限性。首先是时效性约束：索引需要定期手动重建（通过 npm run crawl），无法获取文档网站的实时更新，适合查阅稳定 API 文档而非追踪最新技术动态。其次是范围限制：仅支持白名单内的技术文档站点，无法覆盖 Stack Overflow、GitHub Issues 等社区讨论内容。此外，技能依赖 Node.js 运行时环境，且索引文件可能占用较大存储空间（取决于配置的 max_documents），对轻量级使用场景不够友好。

该技能最适合离线开发环境、企业内部知识库以及对隐私敏感的开发者。特别适合需要频繁查阅官方文档但网络环境受限（如内网开发、差旅场景）的工程师，以及希望建立团队统一技术文档检索入口的 DevOps 团队。对于教育场景，教师可构建特定技术栈（如 Python + React）的精选文档集，避免学生被网络信息干扰。

使用风险方面，尽管安全评级为 A 级，仍需注意以下常规风险：一是爬虫行为风险，若配置的 crawl.depth 或 delay 不合理，可能对目标文档站点造成过大负载，建议遵守各站点的爬取频率限制；二是存储与性能，大规模索引（数万文档）可能占用数百 MB 磁盘空间，搜索时内存占用随索引大小增长；三是依赖维护，技能依赖 minisearch、jsdom 等 npm 包，需定期更新以修复潜在 CVE 漏洞；四是配置安全，config.yaml 中的域名白名单若被篡改加入恶意站点，可能导致爬虫访问危险 URL，建议对配置文件进行权限管控（如设为只读）。

安全解读

核心用法

Curated Search Skill 提供域名白名单限制的全文搜索能力，专注于高质量技术文档索引。用户可通过 curated-search.search 工具执行精准查询，支持多维度参数控制：

基础搜索：query 参数支持关键词匹配，limit 控制返回数量（默认5，上限100）
域名过滤：domain 参数限定特定来源，如 developer.mozilla.org
质量阈值：min_score 过滤低相关性结果（0.0-1.0 BM25评分）
分页支持：offset 实现结果分批加载

返回结果包含标准化字段：标题、规范URL、200字符摘要、来源域名、BM25相关性评分及爬取时间戳。

显著优点

1. 权威信源保障：仅索引 MDN、Python 官方文档、Node.js、GitHub、Stack Overflow、Wikipedia 等高信誉域名，杜绝内容农场与SEO垃圾
2. 干净输出格式：结构化JSON响应，无广告干扰，可直接嵌入工作流
3. 安全机制完善：已实现 SSRF 防护（阻止私有IP）、robots.txt 遵守、速率限制，通过六维安全检测（A级，95分）
4. 隐私合规：符合 GDPR/CCPA，无敏感数据收集
5. 开源可控：MIT许可证，配置透明（config.yaml 白名单、爬取策略可审计）

潜在缺点与局限性

覆盖范围有限：白名单机制导致长尾技术资料（个人博客、小众框架文档）无法检索
索引时效依赖：需定期运行爬取任务（npm run crawl），否则内容可能滞后
T3来源风险：维护者为个人开发者 Qrusher，无组织背书，建议升级前审查变更
评分非标准化：BM25分数虽通常在0-1范围，但非强制归一化，跨查询可比性有限
无语义搜索：基于关键词的BM25匹配，不支持自然语言理解或向量相似度

适合人群

开发者：快速查阅官方API文档、语言规范
技术写作者：引用权威来源，确保内容准确性
教育机构：为学生提供无干扰的技术资料检索环境
企业知识库：构建内部技术文档搜索引擎的参考实现

常规风险

| 风险类型 | 说明 | 缓解措施 |

|---------|------|---------|

| 索引过期 | 文档更新后索引未同步 | 配置定期爬取任务 |

| 白名单遗漏 | 所需域名未在配置中 | 手动编辑 `config.yaml` 扩展 |

| 依赖供应链 | yaml包等第三方依赖 | 使用 package-lock.json 锁定版本 |

| 配置错误 | 路径、权限问题导致索引失败 | 参考错误代码表排查 |

历史安全问题（未使用的HTTP服务器组件）已于 v1.0.4 修复，当前版本无高危漏洞。

docs development-engineering search productivity education-research backend automation

curated-search 内容

docs文件夹

scripts文件夹

src文件夹

手动下载zip · 94.0 kB

deployment.mdtext/markdown

请选择文件