audit-case-rag

🗂️ 商业地产审计证据本地 RAG 专家

基于本地嵌入模型的审计案例 RAG 系统,支持阶段过滤与页级引用,确保敏感证据零上云,满足商业地产合规调查需求。

收藏
22.2k
安装
4.7k
版本
v0.1.0
CLS 安全性认证2026-05-06
点击查看完整报告 >

使用说明

核心用法

该技能采用本地优先架构,为单个审计或调查案例构建可搜索的证据索引。用户需按规范命名案例文件夹(格式:项目问题编号__标题),并在内部使用标准化阶段子文件夹(01_policy_basis 至 09_rectification)组织 50-200 份混合文档(PDF、Office 格式)。通过 Python 脚本建立本地向量索引(基于 fastembed 和 scikit-learn),支持混合检索(embedding + TF-IDF)。查询时可通过命令行指定案例 ID 和阶段过滤,获取带页级引用(file://...#page=N)的证据片段,直接用于审计底稿或整改闭环。

显著优点

1. 隐私零泄露:完全本地化运行,无需调用云端 API,敏感审计数据绝不上传,满足金融行业合规要求。
2. 结构化检索:强制阶段文件夹命名规范,支持 case_id + stage 双重过滤,精准定位招采、合同、付款等特定环节证据。

3. 页级精确引用:生成可点击的文件链接和 PDF 页码标注,满足审计工作底稿对证据出处的严格要求。

4. 混合检索机制:结合语义嵌入与 TF-IDF 重排序,平衡概念匹配与关键词精确度,提升多格式文档检索效果。

潜在缺点

1. T3 来源风险:由个人开发者维护,虽通过安全审查,但长期维护稳定性和社区支持弱于企业级产品。
2. 依赖本地环境:需安装 Python 虚拟环境及 LibreOffice 才能处理 Office 文档,配置门槛较高。

3. 无 OCR 能力:无法处理扫描版 PDF 的文字识别,对纸质档案数字化场景支持有限。

4. 单用户局限:设计为单案例本地索引,缺乏多用户协作和云端同步功能。

适合目标群体

  • 商业地产内部审计部门
  • 合规调查与风控团队
  • 会计师事务所现场审计人员
  • 需处理敏感证据的法律调查团队
  • 注重数据主权、拒绝 SaaS 化审计工具的企业

使用风险

1. 磁盘空间占用:索引文件(joblib 格式)和转换后的 PDF 可能占用大量磁盘空间,需定期清理。
2. 依赖供应链:fastembed、scikit-learn 等依赖需从 PyPI 下载,存在供应链攻击理论风险(虽版本已锁定)。

3. LibreOffice 兼容性:Office 文档转换依赖本地 soffice,版本差异可能导致格式错乱或转换失败。

4. 索引一致性:如源文档修改后未重建索引,可能导致检索结果过时,需建立索引更新机制。

安全解读

核心功能

audit-case-rag 是一款专为商业地产审计与举报调查场景设计的本地优先、事件驱动型RAG工具。其核心价值在于将分散的审计证据材料(PDF/DOCX/PPTX/XLSX等)转化为可精确溯源的检索系统,特别适用于单案50-200份文档的中等规模案件管理。

显著优点

1. 案件结构化组织:强制采用项目问题编号__标题的命名规范,内置8阶段标准文件夹体系(01_policy_basis至09_rectification),实现审计证据的阶段化管理,契合内控审计的工作流习惯。

2. 页级精准溯源:通过LibreOffice将Office文档转为PDF后,检索结果附带file://...#page=N格式的可点击引用,直接定位证据所在页码,满足工作底稿编制与整改闭环的合规要求。

3. 纯本地安全架构:完全不依赖云端API,嵌入生成、向量索引、混合检索(embedding + TF-IDF rerank)全流程本地执行,从根本上杜绝敏感审计数据外泄风险,符合金融/地产行业数据安全合规要求。

4. 混合检索优化:可配置的alpha参数平衡语义召回与关键词匹配,兼顾审计场景对精确术语(如"背靠背条款")和上下文理解的复合需求。

潜在局限

  • 技术门槛:需本地Python环境及LibreOffice配置,非技术背景审计人员上手存在学习曲线
  • 规模限制:单案设计容量50-200份文档,超大规模案件(千级以上)需分案处理或架构扩展
  • OCR依赖:扫描版PDF需预先处理,工具本身不提供OCR能力
  • 跨案检索缺失:当前设计为单案隔离索引,不支持历史案件关联分析

适合人群

  • 内审/监察部门负责专项审计或举报调查的案件主办人员
  • 需要编制可溯源工作底稿的审计项目经理
  • 处理整改闭环跟踪的合规管理人员
  • 对数据出境严格管控的金融机构、国企地产平台

常规风险

  • LibreOffice依赖风险:文档转换依赖本地soffice,版本兼容性或批量转换异常可能影响索引完整性
  • 路径遍历风险:虽有初步防护,但建议生产环境显式校验--case-dir参数防止../注入
  • 索引一致性:文件变更后需重新索引,存在检索结果与源文件版本不一致的潜在风险
  • T3来源持续关注:个人开发者维护,版本升级时建议重新代码审查

audit-case-rag 内容

references文件夹
scripts文件夹
手动下载zip · 6.8 kB
case-folder-template.mdtext/markdown
请选择文件