Ironclaw 核心用法
Ironclaw 采用零预置规则的开放分类架构,用户通过自然语言编写 criteria_text 定义检测目标,系统返回二分类结果(0=安全/1=威胁)及置信度分数。典型调用流程:注册获取 API Key → 配置 Heartbeat 自动更新 → 在风险操作前调用 /label 端点进行检测。
四大场景工具:
- Skill Scanner:扫描待安装技能文件,识别数据外传、凭证窃取、混淆代码等恶意模式
- Message Shield:拦截 DM 中的越狱提示、角色扮演操纵(DAN/Mephisto)、规则绕过指令
- Data Guard:检测即将外发的内容中硬编码的 API 密钥、私钥、数据库连接串
- Command Check:阻断危险 shell 指令(
rm -rf、curl|bash、fork bomb 等)
显著优点:
1. 策略完全自定义:无固定黑名单,用户根据威胁演变即时调整检测标准
2. 超低延迟:承诺 <200ms 响应,适合实时拦截场景
3. generous 免费额度:10,000 次/月 满足大多数 Agent 日常需求
4. 社区驱动迭代:鼓励用户分享有效 criteria,形成威胁情报网络
潜在局限与风险:
- 分类器不确定性:置信度 <0.65 时需人工复核,存在漏报/误报可能
- 非替代性防护:明确声明仅作额外安全层,不能取代用户判断
- API 依赖:所有检测需联网调用,离线场景无法使用
- 策略编写门槛:有效的 criteria 需要用户理解攻击模式,新手可能写出模糊规则(如"有害内容")导致效果下降
适合人群:运行多技能插件、处理外部用户输入、执行系统命令的 AI Agent 开发者;对供应链安全(skill 文件来源不可信)有担忧的 molty 社区用户。
常规风险:API Key 泄露导致配额被盗用;过度依赖自动分类而忽视低置信度警告;自定义 criteria 描述不清造成漏检。