Tinman - AI Failure Mode Research, Prompt Injection & Tool Exfil Detection

🛡️ AI Agent 主动安全防护系统

security榜 #38

AI安全防护系统,168种检测模式实时拦截提示注入、工具滥用等攻击,支持自主防护扫描与本地事件监控,适合高安全需求场景

收藏
12.8k
安装
3.3k
版本
0.6.4
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Tinman 是一款面向 AI Agent 的主动安全防护技能,通过 /tinman check 实现工具调用前的实时风险拦截,使 Agent 具备自我 policing 能力。用户可通过三种安全模式(safer/risky/yolo)灵活控制干预强度,从完全人工审核到仅警告不阻断。核心工作流包括:初始化配置 → 设置安全模式 → 集成到 SOUL.md 实现自主防护 → 定期会话扫描(/tinman scan)→ 主动渗透测试(/tinman sweep,288 个攻击探针)→ 本地事件流监控(/tinman watch + Oilcan 仪表盘)。

显著优点

  • 主动防御架构:不同于被动日志审计,Tinman 在工具执行前介入,真正实现"预防"而非"事后发现"
  • Agent 自主能力:通过 /tinman check 让 Agent 自行判断风险,减少人工介入频率
  • 全面攻击覆盖:12 大类 288 个合成攻击探针,涵盖提示注入、工具外泄、MCP 攻击、供应链攻击等前沿威胁
  • 精细化分级:S0-S4 五级严重度+三种运行模式,平衡安全性与可用性
  • 完全本地运行:敏感会话数据不出境,符合隐私合规要求
  • 生态集成友好:Oilcan 本地仪表盘、OpenClaw 控制映射、heartbeat 定时任务原生支持

潜在缺点与局限性

  • 权限要求较宽:需读取会话历史、文件系统访问权限,虽声明合理但增加攻击面
  • 配置复杂度:有效防护需深度集成到 SOUL.md 和网关配置,初学者上手门槛不低
  • 误报风险:S2 级别"建议审核"类检测在复杂业务场景可能产生噪音
  • yolo 模式隐患:虽为测试设计,但存在被意外启用的风险
  • WebSocket 暴露--allow-remote-gateway 选项若配置不当可能扩大攻击面

适合人群

  • 企业级 AI Agent 部署的安全团队
  • 处理敏感数据(代码、密钥、PII)的开发者
  • 需要满足合规审计要求的金融、医疗、政务场景
  • 红队/安全研究人员测试 AI 系统鲁棒性

常规风险

  • 过度依赖风险:安全模式设置不当(如长期 yolo)可能产生虚假安全感
  • 配置漂移:SOUL.md 更新后未同步维护 Tinman 集成规则导致防护失效
  • 本地日志泄露~/.openclaw/workspace/tinman-events.jsonl 若权限设置宽松可能被其他进程读取
  • 供应链风险:依赖 AgentTinmantinman-openclaw-eval 两个 PyPI 包,需关注其更新签名

Tinman - AI Failure Mode Research, Prompt Injection & Tool Exfil Detection 内容

手动下载zip · 22.6 kB
requirements.txttext/plain
请选择文件