qmd Search

🔍 本地智能文档搜索引擎

办公榜 #26

本地极速搜索工具,结合BM25、向量语义和LLM重排序,无需API密钥即可智能检索Markdown笔记与代码文档。

收藏
8.2k
安装
3.6k
版本
1.1.0
CLS 安全性认证2026-05-10
点击查看完整报告 >

使用说明

核心用法

qmd 是一款专为本地知识库设计的全文搜索引擎,通过命令行界面提供三类检索模式:关键词搜索(`qmd search`)基于BM25算法快速匹配词项;语义搜索(`qmd vsearch`)利用300M参数的embedding模型理解查询意图;智能查询(`qmd query`)则融合两者并通过0.6B参数的Qwen3重排序模型输出最相关结果。用户需先通过collection add建立索引集合,用--mask限定文件类型,执行qmd embed一次性生成向量库后,即可通过-c参数指定范围搜索。支持--files快速路径发现、--full获取完整内容及行号、--json结构化输出等格式。

显著优点

完全本地化:所有模型(embedding、reranker、可选生成模型)自动下载至本地运行,零API成本、零网络延迟、零隐私泄露风险。性能优化:专为规避find命令在大目录中的阻塞问题设计,索引后检索速度极快。检索质量:三重机制(关键词+语义+LLM重排)显著提升复杂查询的准确率,尤其适合概念模糊但意图明确的搜索场景。灵活输出:支持路径、摘要、完整文档、指定行范围(get file:line -l N)等多粒度内容获取,以及glob批量匹配(multi-get)。

潜在局限

前期投入:首次嵌入(qmd embed)需数分钟处理,索引需手动更新(qmd update),文件频繁变更时可能产生延迟。硬件依赖:300M+0.6B参数模型虽轻量,但仍需一定CPU/GPU资源,极低配设备可能受限。功能边界:专注Markdown及代码文档,非结构化数据(PDF、图片)不支持;重排序质量取决于0.6B模型能力,复杂推理型查询可能表现有限。生态封闭:自定义模型替换、与其他工具链集成能力未明确说明。

适合人群

开发者、技术写作者、知识管理重度用户——尤其是维护大量笔记仓库、需要频繁检索代码片段或文档、且对隐私敏感不愿使用云端搜索服务的群体。适合作为Obsidian、Logseq等笔记工具的补充检索层,或替代grep/find进行项目级内容发现。

常规风险

数据一致性风险:索引滞后于文件变更,未执行update可能返回过期结果。存储占用:本地模型与向量库持续占用磁盘空间。误检漏检:语义搜索对专业术语的同义扩展可能引入噪声,极短查询或高度专有名词场景下BM25可能更可靠。建议关键场景交叉验证两类搜索结果。

安全解读

核心用法

qmd 是一款专为本地Markdown文件、笔记和文档设计的智能搜索CLI工具,提供三种互补的检索模式:

  • BM25关键词搜索 (qmd search):传统全文检索,适合精确匹配文件名、配置项或特定术语
  • 向量语义搜索 (qmd vsearch):基于300M参数的embeddinggemma模型,理解自然语言查询意图
  • LLM重排综合搜索 (qmd query):结合前述结果,通过0.6B参数的Qwen3-reranker模型智能排序,返回最相关片段

典型工作流:先通过 collection add 建立索引集合(支持通配符过滤文件类型),日常搜索时指定 -c 参数限定范围以避免全量扫描。更新文档后执行 qmd update 同步索引。输出支持 --files(仅路径)、--json(结构化数据)、--md(Markdown格式)及 --full(完整内容带行号)四种模式,并可通过 multi-get 批量提取文件片段。

显著优点

1. 完全本地化:所有模型(embedding、reranking、generation)均自动下载并在本地运行,零API成本、零网络延迟、零隐私泄露风险
2. 三重检索融合:单一工具覆盖关键词、语义、重排全链路,避免多工具切换

3. 性能优势:针对大目录设计,明确替代易阻塞的 find 命令

4. 精细输出控制:支持行级提取、字节限制、结果数量裁剪,便于集成至自动化工作流

潜在缺点与局限性

  • 首次配置成本:启用向量搜索需运行 qmd embed 生成嵌入,耗时数分钟;大型代码库索引可能占用显著磁盘空间
  • 模型体积约束:0.6B-300M参数级别模型虽轻量,但复杂语义理解能力逊于云端大模型(如GPT-4级别),可能遗漏深层关联
  • 生态锁定:专用于Markdown/文本类内容,二进制文件、PDF、Office文档需外部转换
  • 维护状态依赖:个人开发者项目(trust_level: T3),长期更新持续性需观察

适合人群

  • 积累大量Markdown笔记的知识工作者、开发者、技术写作者
  • 需要快速在本地代码库中定位配置、文档、实现片段的工程师
  • 对数据隐私敏感、拒绝云端搜索服务的用户
  • 构建本地RAG(检索增强生成)管道的AI应用开发者

常规风险

  • 索引过时风险:未及时 qmd update 可能导致搜索结果不包含最新修改
  • 集合管理疏忽:未使用 -c 限定范围时,跨集合搜索可能返回低相关结果或增加延迟
  • 模型幻觉传递:LLM重排虽提升排序质量,但仍可能基于训练偏见强化特定模式,关键决策建议人工复核原始片段
  • 存储占用:嵌入式向量索引可能达到原始文本体积的数倍,SSD空间紧张设备需监控

qmd Search 内容

手动下载zip · 1.4 kB
SKILL.mdtext/markdown
请选择文件