核心用法
input-guard是面向AI Agent的输入安全检测层,专门用于扫描从外部不可信来源获取的文本内容,识别并拦截Prompt注入攻击。该技能通过Python标准库实现,无需任何外部依赖,支持16种攻击类别检测(包括指令覆盖、角色操纵、系统伪装、越狱、数据外泄等),覆盖英语、韩语、日语、中文四种语言模式。用户可通过Shell命令行或Python子进程调用,支持inline文本、文件读取、stdin管道三种输入方式,输出提供人类可读、JSON、静默三种格式。
显著优点
- 防御前置设计:强制要求在Agent处理外部数据前执行扫描,从架构上阻断攻击链路
- 分级响应机制:5级 severity(SAFE/LOW/MEDIUM/HIGH/CRITICAL)配合明确的处置策略,避免一刀切影响业务
- 零依赖部署:纯Python标准库实现,无需pip安装,适用于隔离环境、容器、边缘设备
- 多语言覆盖:针对东亚语言优化的检测模式,解决国际化场景的防护盲区
- 生态联动:可选集成MoltThreats社区威胁情报,实现攻击样本共享与集体防御
- 脚本友好:Exit Code设计(0安全/1威胁)便于CI/CD、自动化工作流集成
潜在局限
- 规则引擎局限:基于正则/模式匹配,对新型变异攻击、语义混淆、上下文依赖的复杂注入可能存在漏检
- 误报风险:HIGH/paranoid模式下可能出现过度拦截,影响正常内容的处理效率
- 无深度分析:不提供攻击归因、样本关联、行为溯源等高级威胁情报能力
- MoltThreats依赖外网:社区上报功能需要网络连通性和API Key,离线环境不可用
适合人群
- 运营AI Agent自动化工作流的技术团队(爬虫、搜索、API聚合类场景)
- 需处理用户提交URL、社交媒体内容、第三方RSS/Feed的客服/内容Agent
- 对供应链安全有要求的金融、政务、医疗领域AI应用开发者
- 希望快速部署输入防护、不愿引入重型安全基础设施的中小团队
常规风险
- 绕过风险:攻击者可能通过编码混淆(Base64、零宽字符)、多语言混合、分段投递等方式规避模式检测
- 性能瓶颈:高频调用场景下,纯Python实现的扫描可能成为I/O瓶颈
- 配置漂移:sensitivity级别选择不当(过低导致漏报/过高导致业务阻断)需结合业务持续调优
- 密钥泄露:MOLTHREATS_API_KEY等环境变量若未妥善管理,存在凭证泄露风险