使用说明

核心用法

input-guard 是面向 AI agent 的提示注入防御前置层，必须在处理任何外部不可信文本（网页、推文、API 响应等）之前执行扫描。通过纯 Python 实现，零外部依赖，支持 16 类攻击检测、4 级灵敏度（low/medium/high/paranoid）、多语言模式匹配及可选 LLM 二次语义分析。

标准工作流：获取外部内容 → pipe 至 scan.sh → 解析 JSON 输出 → SAFE/LOW 则继续处理，MEDIUM+ 则中断并告警 → 可选上报 MoltThreats 社区。

显著优点

1. 零部署成本：仅依赖 Python 3 标准库，无需 pip install，任何环境开箱即用
2. 多层防御架构：正则模式（<100ms）+ 可选 LLM 语义分析（2-5s），后者可捕获隐喻叙事、间接指令提取等绕过攻击
3. 工程化集成友好：exit code 0/1 设计便于 shell 脚本链式调用，JSON/quiet/alert 多输出模式适配自动化流水线
4. 社区威胁情报：MoltThreats 集成支持上报确认的注入样本，形成共享防御网络
5. 多语言覆盖：英/韩/日/中四语攻击模式库，应对全球化攻击面

潜在局限与风险

正则误报/漏报：模式匹配对编码混淆（零宽字符、Base64 嵌套）存在固有盲区，high/paranoid 模式可能过度拦截合法内容
LLM 成本与延迟：启用 --llm 后单次扫描约 2,000 tokens，高频场景成本累积显著；LLM 本身也可能被对抗样本欺骗
依赖外部 LLM 密钥：LLM 层需 OpenAI/Anthropic API，存在供应商锁定与数据出境合规考量
无沙箱执行：仅做静态分析，不验证 payload 的实际代码执行效果

适合人群

构建自动化 agent 工作流的开发者（尤其涉及 web_fetch、搜索聚合场景）
运营公开 AI 服务、需防范提示注入导致的数据泄露或行为劫持的团队
对零依赖工具有硬性要求的安全审计环境

常规风险

| 风险项 | 说明 |

|--------|------|

| 扫描遗漏 | 新型攻击变种可能未被模式库覆盖，建议结合 `--llm-auto` 作为兜底 |

| 敏感信息外泄 | 启用 LLM 扫描时，文本内容发送至第三方 API，需评估数据分级 |

| 告警疲劳 | paranoid 模式高频误报可能导致运营人员忽视真实威胁 |

prompt-injection security defense zero-dependency llm-security threat-detection input-validation molthreats agent-safety

Input Guard 内容

暂无文件树

手动下载zip · 44.7 kB

contentapplication/octet-stream

请选择文件