input-guard

🛡️ AI Agent的提示注入防火墙

纯Python实现的AI提示注入防御工具,16类攻击检测+多语言支持,零依赖核心保障Agent处理外部数据前的安全屏障。

收藏
7.2k
安装
1.8k
版本
v1.0.1
CLS 安全性认证2026-05-15
点击查看完整报告 >

使用说明

核心用法

input-guard 是专为AI Agent设计的前置防御层,必须在处理任何不可信外部文本前执行扫描。支持三种输入方式:命令行直接传入文本、、--file读取文件、、--stdin管道输入。输出模式灵活,包括人类可读格式、JSON结构化输出和静默模式。核心扫描基于16类正则检测规则(指令覆盖、角色操纵、系统模仿、越狱、数据外泄等),覆盖英语、韩语、日语、中文四种语言。可选LLM增强层通过语义分析捕获隐喻、故事化越狱等规避型攻击。

显著优点

零依赖架构是最大亮点——核心扫描仅依赖Python标准库,无需pip安装即可在任何Python 3环境运行,极大降低供应链攻击面。双重检测机制兼顾效率与深度:正则扫描<100ms适合实时过滤,LLM层2-5秒提供语义级防护。敏感度分级(low/medium/high/paranoid)允许用户根据场景平衡安全性与误报率。生态集成完善:内置OpenClaw告警通道、MoltThreats社区威胁共享、标准退出码(0/1)便于脚本化集成。

潜在缺点与局限性

正则引擎存在固有误报率,high/paranoid模式可能过度拦截正常内容。LLM扫描带来成本与延迟(约2000 tokens/次),不适合高频批量场景。多语言支持虽覆盖主要语种,但小语种攻击向量可能遗漏。依赖外部API key(OpenAI/Anthropic/MoltThreats)意味着功能可用性受第三方制约。此外,该工具仅检测已知攻击模式,零日提示注入仍需依赖LLM层的泛化能力。

适合的目标群体

  • AI Agent开发者:需为自主Agent构建安全边界的工程师
  • RAG系统架构师:处理网页、文档等外部知识源时强制前置过滤
  • 安全运维团队:监控AI工作流的威胁态势并建立响应流程
  • 多语言AI产品团队:服务英/韩/日/中用户市场的产品
  • 合规敏感行业:金融、医疗、法律等需审计追踪的领域

使用风险

性能风险:LLM模式引入2-5秒延迟,高并发场景需限流或降级至正则模式。依赖风险:taxonomy.json缓存过期或API不可用时,LLM层功能降级。配置风险:敏感度设置不当导致业务流中断(paranoid模式误报)或防护失效(low模式漏报)。隐私风险:LLM扫描将用户数据发送至OpenAI/Anthropic,需明确告知并获得授权。

安全解读

核心用法

Input Guard 是一款专为 AI Agent 设计的提示注入(Prompt Injection)防御工具,用于在处理任何外部不可信文本之前进行安全扫描。支持 Web 页面、社交媒体、搜索 results、API 响应等多种数据来源。

基础扫描流程

# 扫描内联文本
bash scripts/scan.sh "待检测内容"

# 扫描文件或 stdin
bash scripts/scan.sh --file /path/to/content.txt
echo "$CONTENT" | bash scripts/scan.sh --stdin

# JSON 输出供程序集成
bash scripts/scan.sh --json "内容"

显著优点

1. 零依赖设计:纯 Python 标准库实现,无需 pip 安装任何包,Python 3 环境即可运行
2. 16 类攻击检测:覆盖指令覆盖、角色操纵、系统伪装、越狱、数据外泄、危险命令等完整攻击面

3. 四级灵敏度:从 lowparanoid 可调,默认 medium 平衡检测率与误报

4. 多语言支持:内置英/韩/日/中四种语言的正则检测模式

5. 可选 LLM 增强:通过 --llm 参数启用 OpenAI/Anthropic 进行语义层分析,捕捉隐喻、故事化等规避型攻击

6. 自动化友好:退出码设计(0=安全/低危,1=中高危),易于集成到 CI/CD 或 Agent 工作流

潜在缺点与局限性

  • 正则边界:纯模式匹配对高度混淆、编码变换的攻击可能漏检(需 LLM 层补充)
  • LLM 成本:启用 --llm 后每次扫描消耗约 2000 tokens,延迟 2-5 秒
  • 离线限制:威胁分类更新和 MoltThreats 上报需 API 密钥和网络连接
  • 无实时学习:检测规则依赖内置正则和静态分类,不具备自适应学习能力

适合人群

  • 运行 AI Agent 的个人开发者企业安全团队
  • 需要从互联网抓取内容并喂给 LLM 的自动化工作流
  • 对提示注入风险敏感的高安全要求场景

常规风险

  • 误报率:在 high/paranoid 模式下可能将正常技术文档误判为攻击
  • API 密钥泄露风险:若误将密钥写入日志或共享环境变量
  • LLM 被反向操纵:理论上攻击者可能构造针对 LLM 分析器的特定绕过

Agent 集成建议

必须在 AGENTS.md 中强制规定:任何 web_fetchbird 搜索等工具获取的内容,必须先经 input-guard 扫描,仅当结果为 SAFELOW 时才允许进入推理流程;MEDIUM+ 需立即阻断并告警人工。

input-guard 内容

evals文件夹
scripts文件夹
手动下载zip · 43.9 kB
cases.jsonapplication/json
请选择文件