skills/virajsanghvi1/RAGLite

RAGLite

🔎 本地隐私优先的 RAG 文档缓存系统

本地优先 RAG 缓存工具，先蒸馏文档为结构化 Markdown，再用 Chroma+ripgrep 索引查询，保护隐私敏感数据。

收藏

7.7k

安装

3.2k

版本

1.0.7

CLS 安全扫描中

预计需要 3 分钟...

使用说明

RAGLite 综合评估

核心用法

RAGLite 是一个本地优先的检索增强生成（RAG）缓存系统，专为重复查询非训练数据而设计。其工作流程分为三步：

1. 蒸馏（Distill）：将原始文档（PDF、网页等）转换为结构化的 Markdown，压缩冗余内容
2. 索引（Index）：使用 Chroma 向量数据库和 ripgrep 关键词搜索进行本地索引
3. 查询（Query）：支持向量语义搜索 + 关键词混合检索

核心命令通过 ./scripts/raglite.sh 执行，支持一键流水线处理（run 子命令）和交互式查询（query 子命令）。

显著优点

本地优先隐私：敏感数据完全保留在本地机器/网络，无需上传至第三方服务
开源技术栈：基于 Chroma（向量库）和 ripgrep（极速关键词搜索），无托管数据库依赖
蒸馏前置策略：先压缩再嵌入，减少噪声和重复，降低 token 消耗并提升检索准确性
可审计输出：生成的 Markdown 人类可读，便于版本控制和人工核查
混合检索能力：结合语义向量与精确关键词匹配，兼顾Recall与Precision

潜在局限

依赖外部工具链：需预装 Python 3、pip 和 ripgrep（rg），环境配置有一定门槛
Chroma 服务依赖：需自行部署 Chroma 服务端（默认 127.0.0.1:8100），增加运维负担
无内置嵌入模型：需配合 OpenClaw 或其他引擎完成蒸馏，非开箱即用
单用户设计：无多租户或权限管理，不适合团队协作场景
Prompt Injection 风险：虽内置防护指令，但第三方文档仍可能携带恶意注入

适合人群

重视数据隐私的个人用户（学生、研究人员、医疗工作者）
需要处理内部/敏感文档的开发者和小团队
已具备本地 LLM 部署经验的技术用户
希望离线运行 RAG 管道的 AI 应用构建者

常规风险

提示注入：从不可信来源（网页、第三方 PDF）提取的内容可能包含恶意指令
数据泄露：若 Chroma 服务配置不当，本地敏感索引可能被网络暴露
依赖维护：Python 虚拟环境、Chroma 版本升级可能引入兼容性问题
误检索风险：蒸馏过程中的信息损失可能导致关键细节遗漏

rag local-first privacy chroma ripgrep document-processing vector-search markdown open-source

RAGLite 内容

scripts文件夹

手动下载zip · 3.6 kB

install.shtext/x-shellscript

请选择文件