Tinman - AI Failure Mode Research, Prompt Injection & Tool Exfil Detection

🔬 AI 失败模式主动发现与防御系统

AI安全研究工具,主动发现提示注入、工具滥用等失败模式并提供缓解方案

收藏
14.3k
安装
3.3k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Tinman 是一款面向 AI 系统的主动式安全研究代理,通过系统化实验发现未知失败模式。主要功能包括:

1. 扫描分析 (/tinman scan):检查近期会话中的提示注入、工具滥用、上下文泄露等问题,支持按时间范围和失败类型筛选
2. 报告生成 (/tinman report):生成结构化安全报告,包含证据链和缓解建议

3. 持续监控 (/tinman watch):后台自动扫描模式,可配置监控间隔

4. 合成探针 (/tinman sweep):主动发起针对性安全测试

显著优点

  • 主动防御:区别于被动审计,通过合成探针主动发现潜在漏洞
  • OpenClaw 原生集成:缓解措施直接映射到 SOUL.md 护栏、沙箱策略、工具白名单等控制机制
  • 分级分类体系:采用 S0-S4 五级严重度标准,覆盖提示注入、工具外泄、上下文泄露、推理错误、反馈循环五大类别
  • 隐私优先:全本地分析,零外部数据传输,尊重会话隔离
  • 可配置化:支持 YAML 配置自定义监控模式、关注焦点和报告阈值

潜在局限

  • 实验性状态:版本 0.1.x 表明工具尚处早期,可能存在误报或漏报
  • 依赖会话数据质量:若会话日志不完整,扫描效果受限
  • 合成探针风险lab 模式下的主动探测可能对生产环境产生意外影响
  • 缓解建议通用性:自动生成的控制措施可能需要人工调优以适应具体场景

适合人群

  • AI 系统安全研究员和红队测试人员
  • 使用 OpenClaw 框架的开发者与运维团队
  • 需要合规审计能力的企业 AI 部署场景
  • 对提示工程安全有深度需求的进阶用户

常规风险

  • 误报疲劳:S1-S2 级别发现较多时可能造成噪音,建议将阈值设为 S2 以上
  • 权限边界:虽声明 elevated: false,但工具允许列表包含 sessions_history 等敏感读取权限,需确认最小权限原则
  • 影子模式依赖:默认 shadow 模式仅观察不拦截,主动防护需额外配置

Tinman - AI Failure Mode Research, Prompt Injection & Tool Exfil Detection 内容

手动下载zip · 7.4 kB
requirements.txttext/plain
请选择文件