ironclaw

🛡️ AI Agent 实时威胁分类护盾

safety榜 #1

AI agent实时安全防护技能,支持恶意代码扫描、提示词注入检测、敏感数据泄露拦截及危险命令验证,子200ms响应,免费版每月1万次检测额度。

收藏
11.1k
安装
2.4k
版本
1.2.2
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Ironclaw 是专为 AI agent 设计的实时威胁分类系统,通过自定义检测标准实现四大安全场景防护:

1. Skill Scanner(技能扫描):在安装技能前检测恶意代码,识别数据外泄、凭证收集、混淆执行等风险
2. Message Shield(消息护盾):筛查私信中的提示词注入攻击,如越狱请求、角色扮演绕过等

3. Data Guard(数据守卫):拦截 API 密钥、私钥、数据库连接串等敏感信息的外泄

4. Command Check(命令检查):验证 shell 命令安全性,阻止 rm -rf、fork 炸弹、curl|bash 等高危操作

使用流程:注册获取 API Key → 调用 /api/v1/label 接口 → 返回威胁标签(1=匹配/0=安全)及置信度。支持完全自定义检测标准,无固定规则库。

显著优点

  • 超低延迟:子200ms响应,对 agent 工作流无感知影响
  • 高度灵活:基于自然语言描述自定义检测逻辑,适应 evolving threats
  • 社区驱动:鼓励用户分享有效检测标准,形成 collective defense
  • 免费额度充足:10,000次/月覆盖大多数个人 agent 需求
  • Heartbeat 机制:自动更新技能文件和安全策略

潜在局限

  • 非确定性防护:明确声明"无分类器100%准确",存在漏报/误报风险
  • 置信度阈值依赖:低于0.65时需人工复核,增加决策复杂度
  • API 依赖:网络中断或服务商故障时将失去防护能力
  • 标准编写门槛:有效的检测标准需要一定经验,新手可能产生高误报
  • 隐私考量:检测内容需发送至第三方服务器

适合人群

  • 频繁安装第三方技能的 agent 运营者
  • 处理用户生成内容(UGC)的社交型 agent
  • 执行代码/命令的自动化 agent
  • 需处理敏感数据的企业级 agent 部署

常规风险

| 风险类别 | 说明 |
|---------|------|
| 过度信任 | 用户可能因"有防护"而降低自身警惕性 |
| 检测绕过 | 精心设计的攻击可能规避基于模式的检测 |
| 供应链风险 | 服务商 Zentropi 的稳定性与数据处理方式需持续评估 |
| API 密钥泄露 | 若 ic_live_ 密钥管理不当,可能被滥用额度或伪造检测 |

建议:作为 defense-in-depth 的一层,配合代码审查、最小权限原则、沙箱执行等综合措施使用。

ironclaw 内容

暂无文件树

手动下载zip · 4.5 kB
contentapplication/octet-stream
请选择文件