使用说明

核心功能

Tinman是一款面向AI系统的安全研究代理，专注于发现和分类AI失效模式。它通过三种主要工作模式运行：

被动扫描（`/tinman scan`）：分析近期会话记录，识别提示注入（jailbreak、DAN攻击）、工具滥用（未授权访问、数据外泄）和上下文泄漏（跨会话数据泄露）三类核心风险。

主动探测（`/tinman sweep`）：部署80+合成攻击探针进行压力测试，涵盖15种提示注入攻击、18种工具外泄攻击、14种上下文泄漏攻击及15种权限提升攻击，按S0-S4五级严重度分类输出。

持续监控（`/tinman watch`）：后台定时扫描模式，支持自定义间隔。

显著优点

攻击覆盖全面：80+探针覆盖当前主流AI攻击向量，包括最新的指令覆盖攻击和多轮对话诱导
分级评估体系：S0-S4五级严重度+OpenClaw控制点映射，实现风险到缓解措施的直达链路
隐私优先设计：完全本地运行，零外部数据传输，符合企业合规要求
可扩展架构：支持自定义YAML配置，灵活调整扫描焦点和报告阈值
结构化输出：Markdown格式报告含具体证据引用和可执行缓解建议

潜在局限

探针时效性：合成攻击库需持续更新以跟进新型攻击手法（如多模态提示注入）
误报率未公开：缺乏大规模生产环境的误报率基准数据
资源开销：主动扫描模式对计算资源消耗较大，高频率监控可能影响系统性能
覆盖范围局限：当前仅支持文本模态，多模态场景（图像、音频注入）未覆盖

适合人群

AI系统安全工程师与红队测试人员
企业AI平台运维团队（需满足合规审计要求）
OpenClaw生态用户（深度集成sandbox策略与SOUL.md配置）
AI安全研究人员（失效模式分析与防御机制验证）

常规风险

扫描盲区风险：被动扫描依赖完整会话日志，若日志级别不足或轮转过快可能导致漏检
缓解建议执行风险：自动生成的denylist配置需人工复核，过度收紧可能影响正常业务功能
影子模式局限：默认shadow模式仅观察不阻断，生产环境需配合其他安全机制形成纵深防御

安全解读

核心功能

Tinman 是一款专注于 AI 系统失效模式研究的安全分析工具，通过系统化实验发现未知故障。其核心能力包括：

实时监控：扫描近期会话中的提示注入、工具滥用、上下文泄漏等威胁
主动探测：通过 80+ 合成攻击探针（越狱、DAN、SSH密钥外泄、跨会话泄漏等）进行安全评估
分级分类：按 S0-S4 五级严重程度对漏洞分类，并映射到 OpenClaw 控制措施
持续值守：支持后台定时扫描模式

显著优点

1. 完全本地化：所有分析在本地执行，会话数据零外发，符合 GDPR/CCPA 隐私合规
2. 专业威胁覆盖：涵盖提示注入（15种）、工具外泄（18种）、上下文泄漏（14种）、权限提升（15种）四大攻击向量
3. 输出可执行：自动生成带证据和缓解建议的 Markdown 报告，直接对接 SOUL.md、沙箱策略等控制措施
4. 代码质量高：无危险函数使用，采用 yaml.safe_load 安全解析，依赖风险可控

潜在缺点与局限

T3 来源级别：作者为个人开发者 oliveskin，非知名组织，建议人工代码审查后使用
路径访问未严格限制：当前直接拼接 ~/.openclaw/workspace/ 路径，缺少路径遍历防护
错误处理待加强：部分文件 IO 操作缺乏异常捕获
依赖供应链风险：主要依赖作者自有包 AgentTinman，需关注更新签名

适合人群

AI 系统安全研究人员与红队成员
企业 AI 运维团队需定期审计会话安全
OpenClaw 平台管理员强化治理策略

常规风险

| 风险项 | 等级 | 说明 |

|--------|------|------|

| 数据外泄 | 极低 | 零网络外发，数据本地存储 |

| 权限滥用 | 低 | 仅访问工作目录，建议增加路径白名单 |

| 供应链攻击 | 中低 | 依赖作者自有包，建议启用哈希校验 |

| 误报风险 | 中 | 合成探针可能触发正常功能警报 |

认证报告评分：75/100（A级），静态分析 90 分，动态行为 85 分，网络分析 95 分。

ai-security prompt-injection red-team vulnerability-scanning sandbox-testing compliance openclaw-ecosystem

Tinman - AI Failure Mode Research, Prompt Injection & Tool Exfil Detection 内容

手动下载zip · 9.1 kB

requirements.txttext/plain

请选择文件