使用说明

核心用法

rag-search 是一个最小化的 RAG（检索增强生成）后端检索组件，专为职业卫生领域的法规标准查询而设计。用户通过自然语言查询（如"GBZ 2.1-2019 苯职业接触限值"），Skill 会执行以下流程：首先使用 QwenEmbeddingClient 调用通义千问 API 生成查询向量，然后通过 LiteVectorStore 从本地 SQLite 向量数据库召回相关内容，接着使用 QwenRerankClient 对召回结果进行重排序优化，最终返回包含原文内容、来源文件、条款编号、法规级别和相似度分数的结构化数据。

该 Skill 明确设计为后端组件，不直接面向终端用户，需通过 occupational_health_qa 或 occupational_health_report_writer 等上层 Skill 间接调用。

显著优点

1. 检索精度高：采用"向量召回+重排序"的两阶段架构，兼顾召回率和排序准确性
2. 结果可溯源：返回法规原文、标准编号、具体条款和法规级别，满足专业场景的溯源要求
3. 架构轻量：基于 SQLite 本地向量库，无需部署复杂的数据库服务
4. 输出结构化：标准化的 JSON 格式输出，便于下游 Skill 集成和二次处理
5. 领域聚焦：针对职业卫生法规优化，内置专业领域的向量化知识库

潜在缺点与局限性

1. 外部依赖强：核心功能依赖通义千问 API，存在网络延迟、服务可用性和成本问题
2. 数据更新受限：本地向量库更新需要离线重建，无法实时同步最新法规
3. 查询长度无限制：当前实现缺少输入长度校验，极端长查询可能导致异常
4. 环境耦合度高：模块路径和数据库路径均为硬编码，跨环境部署需修改代码
5. 单点查询：不支持批量查询或并发优化，高吞吐场景可能成为瓶颈

适合的目标群体

职业卫生 AI 应用开发者：需要法规检索能力的后端开发者
企业合规系统建设者：构建职业健康安全管理平台的工程团队
垂直领域 RAG 应用研究者：学习 RAG 架构在特定领域落地的参考案例
职业卫生咨询机构：需要自动化法规查询支持的专业服务机构

使用风险

1. 数据隐私风险：查询内容会发送至通义千问 API，敏感信息存在外发可能
2. 服务可用性风险：外部 API 故障将直接导致检索功能失效
3. 结果时效性风险：本地知识库更新滞后，可能返回已废止的法规条款
4. 性能波动风险：API 调用延迟不稳定，影响整体响应时间
5. 环境依赖风险：硬编码路径要求特定的部署环境，容器化部署需额外适配

安全解读

核心用法

rag-search 是一款面向职业健康合规领域的检索增强生成（RAG）后端组件，专为法规文档精准检索设计。用户通过自然语言查询（如"GBZ 2.1-2019 苯职业接触限值"），Skill 将返回结构化检索结果，包含原文内容、法规来源、条款编号、法规层级及相关性评分。

该组件采用最小化设计原则，仅执行检索功能，不生成总结或改写内容，确保输出结果忠实于原始法规文本。返回格式为标准化JSON，便于下游系统（如问答机器人、报告生成器）直接消费和二次处理。

显著优点

1. 精准法规检索：针对职业卫生国家标准（GBZ系列）等专业文档优化，支持条款级定位
2. 结构化输出：自动标注法规层级（国家法律/国家标准/行业标准）和具体条款号，降低人工核对成本
3. 零外部数据泄露：数据来源于本地向量数据库，Embedding和Rerank API通过外部模块代理，无直接网络外发
4. 轻量无依赖：核心代码仅254行，无独立依赖包，部署简单
5. 可解释性评分：相关性评分（0-1）帮助下游系统判断结果可信度

潜在局限

非终端产品：明确禁止直接面向终端用户，需搭配 occupational_health_qa 或 occupational_health_report_writer 使用
外部模块黑箱：核心检索能力（SearchPipeline、EmbeddingClient等）依赖外部系统提供的模块，无法独立审计
代码结构风险：使用 sys.path.insert 硬编码路径导入外部模块，存在潜在的路径劫持和可移植性问题
T2来源级别：由个人开发者（loda666）维护，非知名组织或基金会，长期维护支持存在不确定性
错误信息暴露：当前异常处理直接返回原始错误字符串，可能泄露系统路径等敏感信息

适合人群

企业合规系统开发者：需要集成职业卫生法规检索能力的HR系统、EHS平台
职业健康服务机构：构建内部知识库问答系统的技术团队
法规咨询公司：自动化生成合规评估报告的后端支撑

常规风险

| 风险类型 | 等级 | 说明 |

|---------|------|------|

| 供应链安全 | 中 | 外部模块变更可能导致功能异常，建议锁定版本并独立审计 |

| 路径劫持 | 低 | sys.path修改可能被利用，建议改用环境变量配置 |

| 信息泄露 | 低 | 错误信息需脱敏处理，避免暴露内部路径 |

| 输入注入 | 低 | 建议增加查询长度限制和特殊字符过滤 |

使用建议：建议在沙箱环境完成集成测试，确认外部模块版本兼容性后，再部署至生产环境。

data-analytics backend api healthcare-life-sciences legal automation

rag-search 内容

手动下载zip · 3.5 kB

handler.pytext/plain

请选择文件