rag-search

🔍 职业卫生法规智能检索引擎

基于通义千问嵌入与重排序的本地RAG检索组件,专为职业卫生法规查询设计,提供带溯源的结构化检索结果。

收藏
6.4k
安装
2.2k
版本
v0.1.1
CLS 安全性认证2026-05-16
点击查看完整报告 >

使用说明

核心用法

rag-search 是一个最小化的 RAG(检索增强生成)后端检索组件,专为职业卫生领域的法规标准查询而设计。用户通过自然语言查询(如"GBZ 2.1-2019 苯 职业接触限值"),Skill 会执行以下流程:首先使用 QwenEmbeddingClient 调用通义千问 API 生成查询向量,然后通过 LiteVectorStore 从本地 SQLite 向量数据库召回相关内容,接着使用 QwenRerankClient 对召回结果进行重排序优化,最终返回包含原文内容、来源文件、条款编号、法规级别和相似度分数的结构化数据。

该 Skill 明确设计为后端组件,不直接面向终端用户,需通过 occupational_health_qaoccupational_health_report_writer 等上层 Skill 间接调用。

显著优点

1. 检索精度高:采用"向量召回+重排序"的两阶段架构,兼顾召回率和排序准确性
2. 结果可溯源:返回法规原文、标准编号、具体条款和法规级别,满足专业场景的溯源要求

3. 架构轻量:基于 SQLite 本地向量库,无需部署复杂的数据库服务

4. 输出结构化:标准化的 JSON 格式输出,便于下游 Skill 集成和二次处理

5. 领域聚焦:针对职业卫生法规优化,内置专业领域的向量化知识库

潜在缺点与局限性

1. 外部依赖强:核心功能依赖通义千问 API,存在网络延迟、服务可用性和成本问题
2. 数据更新受限:本地向量库更新需要离线重建,无法实时同步最新法规

3. 查询长度无限制:当前实现缺少输入长度校验,极端长查询可能导致异常

4. 环境耦合度高:模块路径和数据库路径均为硬编码,跨环境部署需修改代码

5. 单点查询:不支持批量查询或并发优化,高吞吐场景可能成为瓶颈

适合的目标群体

  • 职业卫生 AI 应用开发者:需要法规检索能力的后端开发者
  • 企业合规系统建设者:构建职业健康安全管理平台的工程团队
  • 垂直领域 RAG 应用研究者:学习 RAG 架构在特定领域落地的参考案例
  • 职业卫生咨询机构:需要自动化法规查询支持的专业服务机构

使用风险

1. 数据隐私风险:查询内容会发送至通义千问 API,敏感信息存在外发可能
2. 服务可用性风险:外部 API 故障将直接导致检索功能失效

3. 结果时效性风险:本地知识库更新滞后,可能返回已废止的法规条款

4. 性能波动风险:API 调用延迟不稳定,影响整体响应时间

5. 环境依赖风险:硬编码路径要求特定的部署环境,容器化部署需额外适配

安全解读

核心用法

rag-search 是一款面向职业健康合规领域的检索增强生成(RAG)后端组件,专为法规文档精准检索设计。用户通过自然语言查询(如"GBZ 2.1-2019 苯 职业接触限值"),Skill 将返回结构化检索结果,包含原文内容、法规来源、条款编号、法规层级及相关性评分。

该组件采用最小化设计原则,仅执行检索功能,不生成总结或改写内容,确保输出结果忠实于原始法规文本。返回格式为标准化JSON,便于下游系统(如问答机器人、报告生成器)直接消费和二次处理。

显著优点

1. 精准法规检索:针对职业卫生国家标准(GBZ系列)等专业文档优化,支持条款级定位
2. 结构化输出:自动标注法规层级(国家法律/国家标准/行业标准)和具体条款号,降低人工核对成本

3. 零外部数据泄露:数据来源于本地向量数据库,Embedding和Rerank API通过外部模块代理,无直接网络外发

4. 轻量无依赖:核心代码仅254行,无独立依赖包,部署简单

5. 可解释性评分:相关性评分(0-1)帮助下游系统判断结果可信度

潜在局限

  • 非终端产品:明确禁止直接面向终端用户,需搭配 occupational_health_qaoccupational_health_report_writer 使用
  • 外部模块黑箱:核心检索能力(SearchPipeline、EmbeddingClient等)依赖外部系统提供的模块,无法独立审计
  • 代码结构风险:使用 sys.path.insert 硬编码路径导入外部模块,存在潜在的路径劫持和可移植性问题
  • T2来源级别:由个人开发者(loda666)维护,非知名组织或基金会,长期维护支持存在不确定性
  • 错误信息暴露:当前异常处理直接返回原始错误字符串,可能泄露系统路径等敏感信息

适合人群

  • 企业合规系统开发者:需要集成职业卫生法规检索能力的HR系统、EHS平台
  • 职业健康服务机构:构建内部知识库问答系统的技术团队
  • 法规咨询公司:自动化生成合规评估报告的后端支撑

常规风险

| 风险类型 | 等级 | 说明 |
|---------|------|------|
| 供应链安全 | 中 | 外部模块变更可能导致功能异常,建议锁定版本并独立审计 |
| 路径劫持 | 低 | sys.path修改可能被利用,建议改用环境变量配置 |
| 信息泄露 | 低 | 错误信息需脱敏处理,避免暴露内部路径 |
| 输入注入 | 低 | 建议增加查询长度限制和特殊字符过滤 |

使用建议:建议在沙箱环境完成集成测试,确认外部模块版本兼容性后,再部署至生产环境。

rag-search 内容

手动下载zip · 3.5 kB
handler.pytext/plain
请选择文件