Tinman - AI Failure Mode Research, Prompt Injection & Tool Exfil Detection

🛡️ AI 代理主动防御安全扫描器

security榜 #38

AI安全扫描工具,支持168种检测模式和288个攻击探针,提供实时自检、主动防御与多维度风险评估,适合高安全需求场景。

收藏
12.2k
安装
3.3k
版本
0.6.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Tinman 是一款面向 AI 代理系统的主动安全扫描与防御工具,通过 /tinman check 实现执行前风险预判,支持 safer/risky/yolo 三级安全模式。核心功能包括:

1. 实时自检(Agent Self-Protection):在 bash/read/write 等敏感工具执行前自动拦截高危操作(如读取 SSH 密钥),返回 SAFE/REVIEW/BLOCKED 三级裁决
2. 历史会话扫描:通过 /tinman scan 检测 prompt injection、工具滥用、上下文泄露等失败模式

3. 主动渗透测试/tinman sweep 内置 288 个合成攻击探针,覆盖 12 类攻击向量(包括金融交易、MCP 攻击、供应链投毒等)

4. 持续监控/tinman watch 支持 WebSocket 实时事件流或定时轮询扫描

显著优点

  • 检测覆盖全面:168 种检测模式 + 288 攻击探针,覆盖 OWASP LLM Top 10 主要风险
  • 分级响应机制:S0-S4 五级严重度 + 三档运行模式,兼顾安全与效率
  • 零外部依赖:纯本地分析,会话数据不出境
  • OpenClaw 原生集成:自动映射到 SOUL.md 护栏、沙箱策略等控制机制
  • 可编程防御:支持通过 SOUL.md 配置自主保护规则,实现代理自我监管

潜在缺点与局限性

  • 模式误报风险risky 模式自动批准 S1-S2 级别操作,可能绕过需人工复核的边缘案例
  • 探针更新滞后:内置攻击模式需定期更新以应对新型越狱技术(当前版本 0.6.1)
  • yolo 模式危险:测试/研究用途的「仅警告」模式在生产环境极易导致数据泄露
  • 权限配置复杂度:allowlist 管理需人工维护,过度放宽可能抵消安全防护
  • 平台覆盖不均:288 探针中平台特定攻击占 35 个,但云原生场景(K8s/容器逃逸)覆盖有限

适合人群

  • AI 代理开发者:需为自主代理构建安全边界的工程团队
  • 红队测试人员:通过标准化探针库执行 LLM 系统渗透测试
  • 合规审计团队:生成可审计的安全扫描报告与失败模式分类
  • 高频自动化场景:需 /tinman check 集成到 CI/CD 或代理决策链的安全关键型应用

常规风险

| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| 配置漂移 | allowlist 过度累积导致防护失效 | 定期审计 `--clear` 并最小化授权 |
| 模式绕过 | Unicode/编码混淆可能逃过静态检测 | 结合人工复核 REVIEW 级操作 |
| 供应链风险 | 依赖 `AgentTinman>=0.2.1` 等 PyPI 包 | 验证包签名,锁定依赖版本 |
| 监控盲区 | watch 模式 WebSocket 断开时回退到轮询 | 配置心跳作业确保扫描连续性 |
| 误报疲劳 | safer 模式频繁弹窗导致用户习惯性批准 | 精细化调整 `severity_threshold` 至 S2 |

Tinman - AI Failure Mode Research, Prompt Injection & Tool Exfil Detection 内容

手动下载zip · 18.4 kB
requirements.txttext/plain
请选择文件