使用说明

核心用法

Tinman 是一款面向 AI 代理系统的主动安全扫描与防御工具，通过 /tinman check 实现执行前风险预判，支持 safer/risky/yolo 三级安全模式。核心功能包括：

1. 实时自检（Agent Self-Protection）：在 bash/read/write 等敏感工具执行前自动拦截高危操作（如读取 SSH 密钥），返回 SAFE/REVIEW/BLOCKED 三级裁决
2. 历史会话扫描：通过 /tinman scan 检测 prompt injection、工具滥用、上下文泄露等失败模式
3. 主动渗透测试：/tinman sweep 内置 288 个合成攻击探针，覆盖 12 类攻击向量（包括金融交易、MCP 攻击、供应链投毒等）
4. 持续监控：/tinman watch 支持 WebSocket 实时事件流或定时轮询扫描

显著优点

检测覆盖全面：168 种检测模式 + 288 攻击探针，覆盖 OWASP LLM Top 10 主要风险
分级响应机制：S0-S4 五级严重度 + 三档运行模式，兼顾安全与效率
零外部依赖：纯本地分析，会话数据不出境
OpenClaw 原生集成：自动映射到 SOUL.md 护栏、沙箱策略等控制机制
可编程防御：支持通过 SOUL.md 配置自主保护规则，实现代理自我监管

潜在缺点与局限性

模式误报风险：risky 模式自动批准 S1-S2 级别操作，可能绕过需人工复核的边缘案例
探针更新滞后：内置攻击模式需定期更新以应对新型越狱技术（当前版本 0.6.1）
yolo 模式危险：测试/研究用途的「仅警告」模式在生产环境极易导致数据泄露
权限配置复杂度：allowlist 管理需人工维护，过度放宽可能抵消安全防护
平台覆盖不均：288 探针中平台特定攻击占 35 个，但云原生场景（K8s/容器逃逸）覆盖有限

适合人群

AI 代理开发者：需为自主代理构建安全边界的工程团队
红队测试人员：通过标准化探针库执行 LLM 系统渗透测试
合规审计团队：生成可审计的安全扫描报告与失败模式分类
高频自动化场景：需 /tinman check 集成到 CI/CD 或代理决策链的安全关键型应用

常规风险

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| 配置漂移 | allowlist 过度累积导致防护失效 | 定期审计 `--clear` 并最小化授权 |

| 模式绕过 | Unicode/编码混淆可能逃过静态检测 | 结合人工复核 REVIEW 级操作 |

| 供应链风险 | 依赖 `AgentTinman>=0.2.1` 等 PyPI 包 | 验证包签名，锁定依赖版本 |

| 监控盲区 | watch 模式 WebSocket 断开时回退到轮询 | 配置心跳作业确保扫描连续性 |

| 误报疲劳 | safer 模式频繁弹窗导致用户习惯性批准 | 精细化调整 `severity_threshold` 至 S2 |

security ai-safety prompt-injection red-team agent-protection vulnerability-scanning sandbox compliance monitoring

Tinman - AI Failure Mode Research, Prompt Injection & Tool Exfil Detection 内容

手动下载zip · 18.4 kB

requirements.txttext/plain

请选择文件