Tinman - AI Failure Mode Research, Prompt Injection & Tool Exfil Detection

🔍 AI系统失效模式主动发现与分级防护

security榜 #38

AI安全扫描工具,通过80+攻击探针检测提示注入、工具泄露和上下文泄漏等AI系统失效模式,提供分级风险评估与缓解方案

收藏
14.4k
安装
3.3k
版本
0.2.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能

Tinman是一款面向AI系统的安全研究代理,专注于发现和分类AI失效模式。它通过三种主要工作模式运行:

被动扫描(`/tinman scan`):分析近期会话记录,识别提示注入(jailbreak、DAN攻击)、工具滥用(未授权访问、数据外泄)和上下文泄漏(跨会话数据泄露)三类核心风险。

主动探测(`/tinman sweep`):部署80+合成攻击探针进行压力测试,涵盖15种提示注入攻击、18种工具外泄攻击、14种上下文泄漏攻击及15种权限提升攻击,按S0-S4五级严重度分类输出。

持续监控(`/tinman watch`):后台定时扫描模式,支持自定义间隔。

显著优点

  • 攻击覆盖全面:80+探针覆盖当前主流AI攻击向量,包括最新的指令覆盖攻击和多轮对话诱导
  • 分级评估体系:S0-S4五级严重度+OpenClaw控制点映射,实现风险到缓解措施的直达链路
  • 隐私优先设计:完全本地运行,零外部数据传输,符合企业合规要求
  • 可扩展架构:支持自定义YAML配置,灵活调整扫描焦点和报告阈值
  • 结构化输出:Markdown格式报告含具体证据引用和可执行缓解建议

潜在局限

  • 探针时效性:合成攻击库需持续更新以跟进新型攻击手法(如多模态提示注入)
  • 误报率未公开:缺乏大规模生产环境的误报率基准数据
  • 资源开销:主动扫描模式对计算资源消耗较大,高频率监控可能影响系统性能
  • 覆盖范围局限:当前仅支持文本模态,多模态场景(图像、音频注入)未覆盖

适合人群

  • AI系统安全工程师与红队测试人员
  • 企业AI平台运维团队(需满足合规审计要求)
  • OpenClaw生态用户(深度集成sandbox策略与SOUL.md配置)
  • AI安全研究人员(失效模式分析与防御机制验证)

常规风险

  • 扫描盲区风险:被动扫描依赖完整会话日志,若日志级别不足或轮转过快可能导致漏检
  • 缓解建议执行风险:自动生成的denylist配置需人工复核,过度收紧可能影响正常业务功能
  • 影子模式局限:默认shadow模式仅观察不阻断,生产环境需配合其他安全机制形成纵深防御

Tinman - AI Failure Mode Research, Prompt Injection & Tool Exfil Detection 内容

手动下载zip · 9.1 kB
requirements.txttext/plain
请选择文件