核心功能
Tinman是一款面向AI系统的安全研究代理,专注于发现和分类AI失效模式。它通过三种主要工作模式运行:
被动扫描(`/tinman scan`):分析近期会话记录,识别提示注入(jailbreak、DAN攻击)、工具滥用(未授权访问、数据外泄)和上下文泄漏(跨会话数据泄露)三类核心风险。
主动探测(`/tinman sweep`):部署80+合成攻击探针进行压力测试,涵盖15种提示注入攻击、18种工具外泄攻击、14种上下文泄漏攻击及15种权限提升攻击,按S0-S4五级严重度分类输出。
持续监控(`/tinman watch`):后台定时扫描模式,支持自定义间隔。
显著优点
- 攻击覆盖全面:80+探针覆盖当前主流AI攻击向量,包括最新的指令覆盖攻击和多轮对话诱导
- 分级评估体系:S0-S4五级严重度+OpenClaw控制点映射,实现风险到缓解措施的直达链路
- 隐私优先设计:完全本地运行,零外部数据传输,符合企业合规要求
- 可扩展架构:支持自定义YAML配置,灵活调整扫描焦点和报告阈值
- 结构化输出:Markdown格式报告含具体证据引用和可执行缓解建议
潜在局限
- 探针时效性:合成攻击库需持续更新以跟进新型攻击手法(如多模态提示注入)
- 误报率未公开:缺乏大规模生产环境的误报率基准数据
- 资源开销:主动扫描模式对计算资源消耗较大,高频率监控可能影响系统性能
- 覆盖范围局限:当前仅支持文本模态,多模态场景(图像、音频注入)未覆盖
适合人群
- AI系统安全工程师与红队测试人员
- 企业AI平台运维团队(需满足合规审计要求)
- OpenClaw生态用户(深度集成sandbox策略与SOUL.md配置)
- AI安全研究人员(失效模式分析与防御机制验证)
常规风险
- 扫描盲区风险:被动扫描依赖完整会话日志,若日志级别不足或轮转过快可能导致漏检
- 缓解建议执行风险:自动生成的denylist配置需人工复核,过度收紧可能影响正常业务功能
- 影子模式局限:默认shadow模式仅观察不阻断,生产环境需配合其他安全机制形成纵深防御