prompt-shield

🛡️ AI 代理的注入攻击防火墙

🥥38总安装量 10评分人数 12
100% 的用户推荐

专为 AI 代理设计的 Prompt Injection 防火墙,基于 113 种实战检测模式与 RASSELBANDE 集体安全经验,提供实时威胁分级拦截,确保代理交互安全与数据完整性。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全规范,无 eval/exec/system/subprocess 等危险函数调用
  • ✅ 无动态代码加载或远程代码执行风险,所有运算本地完成
  • ✅ 数据隐私保护完善,无网络通信、无敏感信息上传,审计日志仅本地存储
  • ⚠️ 来源为个人开发者账号(T3 级别),建议首次使用前审查 patterns.yaml 正则规则
  • ⚠️ 白名单功能默认禁用,启用后需理解 Hash-chain 机制并配置多节点审批

使用说明

PromptShield 是一款专为 AI 代理设计的轻量级 Prompt Injection 防火墙,通过命令行工具或 Claude Code Hook 集成,实时扫描用户输入并分级处理威胁。核心用法包括:通过 ./shield.py scan 对文本进行即时检测,利用 --json 参数获取结构化输出,通过 batch 模式批量处理评论数据,以及借助 whitelist 命令管理基于 Hash-chain 技术的防篡改白名单。系统采用三层威胁分级(CLEAN 0-49 分直接放行、WARNING 50-79 分提示谨慎、BLOCK 80-100 分拒绝处理),并支持 14 类威胁检测(包括伪造权威、命令注入、内存投毒、技能恶意软件等),覆盖 113 种多语言检测模式。

该技能的显著优点体现在其零依赖的轻量级架构(仅依赖 PyYAML)、基于实战攻击数据训练的检测模式,以及创新的启发式组合评分机制——当输入同时命中多类威胁模式时自动提升危险分数。Hash-chain 白名单 v2 采用区块链-inspired 的 SHA256 链式哈希结构,任何篡改都会立即破坏链完整性,且强制要求双节点审批,杜绝单点权限滥用。此外,Claude Code 的无缝集成能力使其能够直接拦截危险输入,阻止代理执行潜在的注入攻击。

然而,该技能也存在一定局限性。作为 T3 来源的个人开发者项目,其社区认可度和长期维护稳定性有待观察;113 个正则模式虽经实战测试,但仍存在误报风险,可能错误拦截包含特定关键词的合法技术讨论;白名单的 Hash-chain 机制虽然安全,但增加了运维复杂度,需要理解密码学哈希和多重审批流程;此外,作为一款专注于 AI 安全的工具,其检测逻辑主要针对自然语言注入,对于高度混淆的代码级攻击可能需要配合其他安全工具使用。

PromptShield 特别适合以下群体:使用 Claude Code 或其他 AI 编程助手的开发者,需要保护代理免受恶意指令操纵;运营UGC平台的内容审核团队,可利用批量扫描功能检测评论区的垃圾信息和钓鱼链接;AI 应用开发者,希望为自研代理添加输入过滤层;以及安全研究人员,需要分析 Prompt Injection 攻击模式。对于处理敏感指令或高价值 AI 工作流的用户,该工具提供了必要的防御纵深。

使用风险方面,虽然代码本身通过 A 级安全认证(无危险函数、无远程代码执行、本地处理无数据上传),但用户需注意:定期更新 patterns.yaml 以应对新型攻击手法;在启用白名单前充分理解其密码学机制,避免链断裂导致功能失效;监控误报情况,必要时调整检测阈值;以及确保 Python 3 环境的安全基线,防止底层环境被攻破导致的绕过风险。总体而言,这是一款功能聚焦、架构干净的专业安全工具。

prompt-shield 内容

手动下载zip · 25.9 kB
patterns.yamltext/plain
请选择文件