使用说明

核心用法

Ironclaw 是专为 AI agent 设计的实时威胁分类系统，通过自定义检测标准实现四大安全场景防护：

1. Skill Scanner（技能扫描）：在安装技能前检测恶意代码，识别数据外泄、凭证收集、混淆执行等风险
2. Message Shield（消息护盾）：筛查私信中的提示词注入攻击，如越狱请求、角色扮演绕过等
3. Data Guard（数据守卫）：拦截 API 密钥、私钥、数据库连接串等敏感信息的外泄
4. Command Check（命令检查）：验证 shell 命令安全性，阻止 rm -rf、fork 炸弹、curl|bash 等高危操作

使用流程：注册获取 API Key → 调用 /api/v1/label 接口 → 返回威胁标签（1=匹配/0=安全）及置信度。支持完全自定义检测标准，无固定规则库。

显著优点

超低延迟：子200ms响应，对 agent 工作流无感知影响
高度灵活：基于自然语言描述自定义检测逻辑，适应 evolving threats
社区驱动：鼓励用户分享有效检测标准，形成 collective defense
免费额度充足：10,000次/月覆盖大多数个人 agent 需求
Heartbeat 机制：自动更新技能文件和安全策略

潜在局限

非确定性防护：明确声明"无分类器100%准确"，存在漏报/误报风险
置信度阈值依赖：低于0.65时需人工复核，增加决策复杂度
API 依赖：网络中断或服务商故障时将失去防护能力
标准编写门槛：有效的检测标准需要一定经验，新手可能产生高误报
隐私考量：检测内容需发送至第三方服务器

适合人群

频繁安装第三方技能的 agent 运营者
处理用户生成内容（UGC）的社交型 agent
执行代码/命令的自动化 agent
需处理敏感数据的企业级 agent 部署

常规风险

| 风险类别 | 说明 |

|---------|------|

| 过度信任 | 用户可能因"有防护"而降低自身警惕性 |

| 检测绕过 | 精心设计的攻击可能规避基于模式的检测 |

| 供应链风险 | 服务商 Zentropi 的稳定性与数据处理方式需持续评估 |

| API 密钥泄露 | 若 ic_live_ 密钥管理不当，可能被滥用额度或伪造检测 |

建议：作为 defense-in-depth 的一层，配合代码审查、最小权限原则、沙箱执行等综合措施使用。

安全解读

核心用法

Ironclaw 是一款专为 AI Agent 设计的实时威胁分类安全工具，通过外部 API 服务对潜在风险内容进行毫秒级检测。用户需先在 ironclaw.io 完成注册验证（三步流程：申请 challenge → Moltbook 社区验证 → 获取 API Key），随后即可调用 /api/v1/label 端点进行分类检测。

工具提供四大核心场景：

Skill Scanner：安装技能前扫描恶意代码（数据外泄、凭证收割、混淆执行）
Message Shield：私信场景拦截提示词注入（越狱请求、角色扮演绕过、规则忽略指令）
Data Guard： outbound 数据防泄漏（硬编码 API Key、私钥 PEM、数据库连接串）
Command Check：shell 命令预检（rm -rf、dd、fork bomb、curl|bash 等高危操作）

分类采用自定义准则模式——无固定规则库，用户通过自然语言描述检测目标（如"包含破坏性命令（rm -rf, dd if=/dev...）"），返回 0/1 标签及 0.0-1.0 置信度。官方建议置信度<0.65 时人工复核。

---

显著优点

1. 低延迟高性能：标称 sub-200ms 响应，适合实时拦截场景
2. 灵活可扩展：无硬编码规则，准则可随威胁演化动态调整，支持组合与社区共享
3. 零依赖轻量：Skill 本身为纯 Markdown 文档，无第三方代码依赖，静态安全性优秀
4. 免费额度充足：10,000 次/月对多数 Agent 场景足够使用
5. 明确安全边界：文档主动声明"非判断替代，分类器非 100% 准确"，避免过度承诺

---

潜在缺点与局限性

1. 核心外部依赖：功能完全绑定 ironclaw.io 服务可用性，断网即失效，无本地降级方案
2. 数据出境风险：所有待检测内容须加密传输至第三方服务器，存在隐私泄露与合规隐患（GDPR 最小化原则、跨境传输均标注 warn）
3. API Key 管理负担：需注册、验证、保管 ic_live_* 密钥，增加运维复杂度
4. 置信度模糊区间：0.65 阈值建议缺乏统计依据，实际漏报/误报率未公开
5. 准则工程门槛：有效准则需掌握"描述性模式+显式定义+括号示例"技巧，新手易写出低效规则

---

适合人群

频繁安装第三方技能的 Agent 运维者
需处理不可信私信/用户输入的对话型 Agent
执行系统命令前需二次确认的 Tool-use Agent
对延迟敏感、可接受轻度隐私让渡的安全场景

不适合：离线环境、高度敏感内容（机密文档）、无法接受任何外部 API 依赖的合规场景。

---

常规风险

RISK-001 数据外泄：敏感内容上传至第三方，虽 TLS 加密但仍脱离本地控制
RISK-002 服务单点故障：API 不可用导致安全检测盲区
RISK-003 过度依赖误判：分类器非完美，高置信度也可能存在绕过或误杀
合规风险：GDPR 数据最小化、跨境传输需额外评估

security threat-detection prompt-injection api-protection code-analysis classification agent-safety

ironclaw 内容

手动下载zip · 4.5 kB

HEARTBEAT.mdtext/markdown

请选择文件