prompt-shield - AI 代理的注入攻击防火墙

使用说明

PromptShield 是一款专为 AI 代理设计的轻量级 Prompt Injection 防火墙，通过命令行工具或 Claude Code Hook 集成，实时扫描用户输入并分级处理威胁。核心用法包括：通过 ./shield.py scan 对文本进行即时检测，利用 --json 参数获取结构化输出，通过 batch 模式批量处理评论数据，以及借助 whitelist 命令管理基于 Hash-chain 技术的防篡改白名单。系统采用三层威胁分级（CLEAN 0-49 分直接放行、WARNING 50-79 分提示谨慎、BLOCK 80-100 分拒绝处理），并支持 14 类威胁检测（包括伪造权威、命令注入、内存投毒、技能恶意软件等），覆盖 113 种多语言检测模式。

该技能的显著优点体现在其零依赖的轻量级架构（仅依赖 PyYAML）、基于实战攻击数据训练的检测模式，以及创新的启发式组合评分机制——当输入同时命中多类威胁模式时自动提升危险分数。Hash-chain 白名单 v2 采用区块链-inspired 的 SHA256 链式哈希结构，任何篡改都会立即破坏链完整性，且强制要求双节点审批，杜绝单点权限滥用。此外，Claude Code 的无缝集成能力使其能够直接拦截危险输入，阻止代理执行潜在的注入攻击。

然而，该技能也存在一定局限性。作为 T3 来源的个人开发者项目，其社区认可度和长期维护稳定性有待观察；113 个正则模式虽经实战测试，但仍存在误报风险，可能错误拦截包含特定关键词的合法技术讨论；白名单的 Hash-chain 机制虽然安全，但增加了运维复杂度，需要理解密码学哈希和多重审批流程；此外，作为一款专注于 AI 安全的工具，其检测逻辑主要针对自然语言注入，对于高度混淆的代码级攻击可能需要配合其他安全工具使用。

PromptShield 特别适合以下群体：使用 Claude Code 或其他 AI 编程助手的开发者，需要保护代理免受恶意指令操纵；运营UGC平台的内容审核团队，可利用批量扫描功能检测评论区的垃圾信息和钓鱼链接；AI 应用开发者，希望为自研代理添加输入过滤层；以及安全研究人员，需要分析 Prompt Injection 攻击模式。对于处理敏感指令或高价值 AI 工作流的用户，该工具提供了必要的防御纵深。

使用风险方面，虽然代码本身通过 A 级安全认证（无危险函数、无远程代码执行、本地处理无数据上传），但用户需注意：定期更新 patterns.yaml 以应对新型攻击手法；在启用白名单前充分理解其密码学机制，避免链断裂导致功能失效；监控误报情况，必要时调整检测阈值；以及确保 Python 3 环境的安全基线，防止底层环境被攻破导致的绕过风险。总体而言，这是一款功能聚焦、架构干净的专业安全工具。

security firewall development-engineering backend automation api

prompt-shield 内容

手动下载zip · 25.9 kB

patterns.yamltext/plain

请选择文件