ironclaw

🛡️ AI Agent 实时安全护盾

安全/隐私榜 #1

Ironclaw 是面向 AI Agent 的实时安全分类引擎,提供技能文件扫描、提示注入检测、数据泄露防护和危险命令拦截四层防护,支持自定义安全策略。

收藏
9.4k
安装
2.4k
版本
1.2.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

Ironclaw 核心用法

Ironclaw 采用零预置规则的开放分类架构,用户通过自然语言编写 criteria_text 定义检测目标,系统返回二分类结果(0=安全/1=威胁)及置信度分数。典型调用流程:注册获取 API Key → 配置 Heartbeat 自动更新 → 在风险操作前调用 /label 端点进行检测。

四大场景工具

  • Skill Scanner:扫描待安装技能文件,识别数据外传、凭证窃取、混淆代码等恶意模式
  • Message Shield:拦截 DM 中的越狱提示、角色扮演操纵(DAN/Mephisto)、规则绕过指令
  • Data Guard:检测即将外发的内容中硬编码的 API 密钥、私钥、数据库连接串
  • Command Check:阻断危险 shell 指令(rm -rfcurl|bash、fork bomb 等)

显著优点
1. 策略完全自定义:无固定黑名单,用户根据威胁演变即时调整检测标准

2. 超低延迟:承诺 <200ms 响应,适合实时拦截场景

3. generous 免费额度:10,000 次/月 满足大多数 Agent 日常需求

4. 社区驱动迭代:鼓励用户分享有效 criteria,形成威胁情报网络

潜在局限与风险

  • 分类器不确定性:置信度 <0.65 时需人工复核,存在漏报/误报可能
  • 非替代性防护:明确声明仅作额外安全层,不能取代用户判断
  • API 依赖:所有检测需联网调用,离线场景无法使用
  • 策略编写门槛:有效的 criteria 需要用户理解攻击模式,新手可能写出模糊规则(如"有害内容")导致效果下降

适合人群:运行多技能插件、处理外部用户输入、执行系统命令的 AI Agent 开发者;对供应链安全(skill 文件来源不可信)有担忧的 molty 社区用户。

常规风险:API Key 泄露导致配额被盗用;过度依赖自动分类而忽视低置信度警告;自定义 criteria 描述不清造成漏检。

ironclaw 内容

手动下载zip · 4.4 kB
HEARTBEAT.mdtext/markdown
请选择文件