使用说明

核心用法

pii-detect 是一款专注于个人身份信息（PII）检测的 Agent Skill，由 Expanso 团队开发。该技能提供三种部署模式：CLI 管道模式适合命令行快速检测，MCP 模式可作为服务长期运行，Expanso Cloud 模式支持云端规模化部署。用户通过环境变量配置 OPENAI_API_KEY 和可选的 PII_TYPES 检测类型，即可对输入文本进行智能分析，输出结构化的 PII 检测结果。

显著优点

1. 智能识别能力：采用 GPT-4o-mini 模型，相比传统正则表达式能识别更复杂的 PII 变体和上下文关联信息
2. 灵活部署：支持本地 CLI、MCP 服务和云端三种模式，适应不同架构需求
3. 审计友好：自动生成 trace_id 和 input_hash，便于合规审计和结果追踪
4. 隐私保护设计：输入内容仅发送哈希值用于追踪，原始数据通过 HTTPS 传输至 OpenAI API
5. 降级能力：支持纯 regex 模式运行，无需 API Key 即可进行基础检测

潜在缺点与局限性

1. 外部依赖强：核心功能依赖 OpenAI API，离线环境无法使用完整功能
2. 延迟问题：LLM 调用带来额外网络延迟，不适合实时性要求极高的场景
3. 成本考量：持续调用 GPT-4o-mini 会产生 API 费用，高频使用需评估成本
4. 准确率边界：AI 检测存在误报/漏报可能，关键场景建议人工复核
5. 输入限制：默认 1MB 缓冲区限制，超大文本需分批处理

适合的目标群体

数据工程师：构建数据脱敏和 DLP 管道
合规团队：执行 GDPR、CCPA 等隐私法规检查
安全运维：日志审计前的敏感信息筛查
开发者：集成隐私感知的数据处理工作流

使用风险

1. 数据出境风险：检测数据需发送至 OpenAI 服务器，跨国企业需评估合规性
2. API 密钥管理：OPENAI_API_KEY 需安全存储，避免泄露导致费用损失
3. 模型版本锁定：当前锁定 gpt-4o-mini，未来模型升级可能需要手动更新配置
4. 沙箱依赖：功能依赖 Expanso Edge 运行时环境，需确保正确安装和版本兼容

安全解读

核心用法

pii-detect 是 Expanso 官方提供的个人身份信息检测 Skill，支持两种运行模式：

CLI Pipeline：通过 echo '<input>' | expanso-edge run pipeline-cli.yaml 直接处理文本，适合脚本集成和批量处理
MCP Pipeline：以 MCP Server 形式启动，支持与其他 AI 工具链集成，适合构建自动化工作流

此外还可通过 expanso-cli 直接部署到 Expanso Cloud，实现云端托管。

显著优点

1. 官方出品，来源可信：由 Expanso 组织账号维护，GitHub 仓库有完整提交历史，属 T2 级可信来源
2. 架构简洁安全：仅含 YAML 配置和 Markdown 文档，无本地可执行脚本，依赖受控的 Expanso Edge 运行时
3. LLM 增强检测：调用 OpenAI API 实现智能识别，相比传统正则模式能捕获更复杂的 PII 变体
4. 合规基础扎实：默认通过 GDPR、CCPA 合规性检查，支持数据最小化和目的限制原则
5. 审计追踪完善：自动计算并记录输入内容 SHA256 哈希，便于安全审计

潜在缺点与局限性

1. 强制外部 API 依赖：核心功能完全依赖 OpenAI API，无网络环境或 API 密钥时无法使用
2. 数据外发风险：所有输入文本均需发送至 OpenAI 服务器，敏感场景需额外评估
3. 无本地降级方案：缺乏纯本地正则检测模式，无法为极高敏感数据提供完全离线选项
4. 许可证缺失：当前未指定开源许可证，商业使用存在法律不确定性
5. 输入限制未明：文档未说明推荐输入大小，大批量处理可能触发 API 限流

适合人群

企业数据工程师：需要自动化检测日志、文档中的 PII 以便脱敏或分类
合规团队：构建数据治理流水线，满足隐私法规审计要求
AI 应用开发者：集成到 MCP 工具链，为 RAG 系统提供前置数据清洗
中小团队：缺乏自建 NLP 检测能力，希望快速获得可用的 PII 识别方案

常规风险

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| 数据外泄 | 文本内容发送至 OpenAI | 签署 OpenAI DPA，避免处理高度敏感数据 |

| 合规争议 | PII 自动化处理需合法依据 | 明确告知数据主体，保留处理记录 |

| API 依赖 | OpenAI 服务可用性影响功能 | 设计降级策略，监控 API 状态 |

| 日志留存 | SHA256 哈希可能用于关联分析 | 制定日志保留策略，定期清理 |

data-analytics security privacy compliance automation api backend

expanso-pii-detect 内容

test文件夹

fixtures文件夹

手动下载zip · 6.4 kB

input.txttext/plain

请选择文件