expanso-pii-detect

🔒 智能隐私信息检测与合规助手

Expanso 官方出品的 PII 检测技能,基于 GPT-4o-mini 智能识别文本中的个人身份信息,助力企业数据合规与隐私保护。

收藏
5.2k
安装
1.6k
版本
v1.0.0
CLS 安全性认证2026-05-11
点击查看完整报告 >

使用说明

核心用法

pii-detect 是一款专注于个人身份信息(PII)检测的 Agent Skill,由 Expanso 团队开发。该技能提供三种部署模式:CLI 管道模式适合命令行快速检测,MCP 模式可作为服务长期运行,Expanso Cloud 模式支持云端规模化部署。用户通过环境变量配置 OPENAI_API_KEY 和可选的 PII_TYPES 检测类型,即可对输入文本进行智能分析,输出结构化的 PII 检测结果。

显著优点

1. 智能识别能力:采用 GPT-4o-mini 模型,相比传统正则表达式能识别更复杂的 PII 变体和上下文关联信息
2. 灵活部署:支持本地 CLI、MCP 服务和云端三种模式,适应不同架构需求

3. 审计友好:自动生成 trace_id 和 input_hash,便于合规审计和结果追踪

4. 隐私保护设计:输入内容仅发送哈希值用于追踪,原始数据通过 HTTPS 传输至 OpenAI API

5. 降级能力:支持纯 regex 模式运行,无需 API Key 即可进行基础检测

潜在缺点与局限性

1. 外部依赖强:核心功能依赖 OpenAI API,离线环境无法使用完整功能
2. 延迟问题:LLM 调用带来额外网络延迟,不适合实时性要求极高的场景

3. 成本考量:持续调用 GPT-4o-mini 会产生 API 费用,高频使用需评估成本

4. 准确率边界:AI 检测存在误报/漏报可能,关键场景建议人工复核

5. 输入限制:默认 1MB 缓冲区限制,超大文本需分批处理

适合的目标群体

  • 数据工程师:构建数据脱敏和 DLP 管道
  • 合规团队:执行 GDPR、CCPA 等隐私法规检查
  • 安全运维:日志审计前的敏感信息筛查
  • 开发者:集成隐私感知的数据处理工作流

使用风险

1. 数据出境风险:检测数据需发送至 OpenAI 服务器,跨国企业需评估合规性
2. API 密钥管理:OPENAI_API_KEY 需安全存储,避免泄露导致费用损失

3. 模型版本锁定:当前锁定 gpt-4o-mini,未来模型升级可能需要手动更新配置

4. 沙箱依赖:功能依赖 Expanso Edge 运行时环境,需确保正确安装和版本兼容

安全解读

核心用法

pii-detect 是 Expanso 官方提供的个人身份信息检测 Skill,支持两种运行模式:

  • CLI Pipeline:通过 echo '<input>' | expanso-edge run pipeline-cli.yaml 直接处理文本,适合脚本集成和批量处理
  • MCP Pipeline:以 MCP Server 形式启动,支持与其他 AI 工具链集成,适合构建自动化工作流

此外还可通过 expanso-cli 直接部署到 Expanso Cloud,实现云端托管。

显著优点

1. 官方出品,来源可信:由 Expanso 组织账号维护,GitHub 仓库有完整提交历史,属 T2 级可信来源
2. 架构简洁安全:仅含 YAML 配置和 Markdown 文档,无本地可执行脚本,依赖受控的 Expanso Edge 运行时

3. LLM 增强检测:调用 OpenAI API 实现智能识别,相比传统正则模式能捕获更复杂的 PII 变体

4. 合规基础扎实:默认通过 GDPR、CCPA 合规性检查,支持数据最小化和目的限制原则

5. 审计追踪完善:自动计算并记录输入内容 SHA256 哈希,便于安全审计

潜在缺点与局限性

1. 强制外部 API 依赖:核心功能完全依赖 OpenAI API,无网络环境或 API 密钥时无法使用
2. 数据外发风险:所有输入文本均需发送至 OpenAI 服务器,敏感场景需额外评估

3. 无本地降级方案:缺乏纯本地正则检测模式,无法为极高敏感数据提供完全离线选项

4. 许可证缺失:当前未指定开源许可证,商业使用存在法律不确定性

5. 输入限制未明:文档未说明推荐输入大小,大批量处理可能触发 API 限流

适合人群

  • 企业数据工程师:需要自动化检测日志、文档中的 PII 以便脱敏或分类
  • 合规团队:构建数据治理流水线,满足隐私法规审计要求
  • AI 应用开发者:集成到 MCP 工具链,为 RAG 系统提供前置数据清洗
  • 中小团队:缺乏自建 NLP 检测能力,希望快速获得可用的 PII 识别方案

常规风险

| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| 数据外泄 | 文本内容发送至 OpenAI | 签署 OpenAI DPA,避免处理高度敏感数据 |
| 合规争议 | PII 自动化处理需合法依据 | 明确告知数据主体,保留处理记录 |
| API 依赖 | OpenAI 服务可用性影响功能 | 设计降级策略,监控 API 状态 |
| 日志留存 | SHA256 哈希可能用于关联分析 | 制定日志保留策略,定期清理 |

expanso-pii-detect 内容

test文件夹
fixtures文件夹
手动下载zip · 6.4 kB
input.txttext/plain
请选择文件