核心用法
Ironclaw 是专为 AI agent 设计的实时威胁分类系统,通过自定义检测标准实现四大安全场景防护:
1. Skill Scanner(技能扫描):在安装技能前检测恶意代码,识别数据外泄、凭证收集、混淆执行等风险
2. Message Shield(消息护盾):筛查私信中的提示词注入攻击,如越狱请求、角色扮演绕过等
3. Data Guard(数据守卫):拦截 API 密钥、私钥、数据库连接串等敏感信息的外泄
4. Command Check(命令检查):验证 shell 命令安全性,阻止 rm -rf、fork 炸弹、curl|bash 等高危操作
使用流程:注册获取 API Key → 调用 /api/v1/label 接口 → 返回威胁标签(1=匹配/0=安全)及置信度。支持完全自定义检测标准,无固定规则库。
显著优点
- 超低延迟:子200ms响应,对 agent 工作流无感知影响
- 高度灵活:基于自然语言描述自定义检测逻辑,适应 evolving threats
- 社区驱动:鼓励用户分享有效检测标准,形成 collective defense
- 免费额度充足:10,000次/月覆盖大多数个人 agent 需求
- Heartbeat 机制:自动更新技能文件和安全策略
潜在局限
- 非确定性防护:明确声明"无分类器100%准确",存在漏报/误报风险
- 置信度阈值依赖:低于0.65时需人工复核,增加决策复杂度
- API 依赖:网络中断或服务商故障时将失去防护能力
- 标准编写门槛:有效的检测标准需要一定经验,新手可能产生高误报
- 隐私考量:检测内容需发送至第三方服务器
适合人群
- 频繁安装第三方技能的 agent 运营者
- 处理用户生成内容(UGC)的社交型 agent
- 执行代码/命令的自动化 agent
- 需处理敏感数据的企业级 agent 部署
常规风险
| 风险类别 | 说明 |
|---------|------|
| 过度信任 | 用户可能因"有防护"而降低自身警惕性 |
| 检测绕过 | 精心设计的攻击可能规避基于模式的检测 |
| 供应链风险 | 服务商 Zentropi 的稳定性与数据处理方式需持续评估 |
| API 密钥泄露 | 若 ic_live_ 密钥管理不当,可能被滥用额度或伪造检测 |
建议:作为 defense-in-depth 的一层,配合代码审查、最小权限原则、沙箱执行等综合措施使用。