使用说明

Ironclaw 核心用法

Ironclaw 采用零预置规则的开放分类架构，用户通过自然语言编写 criteria_text 定义检测目标，系统返回二分类结果（0=安全/1=威胁）及置信度分数。典型调用流程：注册获取 API Key → 配置 Heartbeat 自动更新 → 在风险操作前调用 /label 端点进行检测。

四大场景工具：

Skill Scanner：扫描待安装技能文件，识别数据外传、凭证窃取、混淆代码等恶意模式
Message Shield：拦截 DM 中的越狱提示、角色扮演操纵（DAN/Mephisto）、规则绕过指令
Data Guard：检测即将外发的内容中硬编码的 API 密钥、私钥、数据库连接串
Command Check：阻断危险 shell 指令（rm -rf、curl|bash、fork bomb 等）

显著优点：
1. 策略完全自定义：无固定黑名单，用户根据威胁演变即时调整检测标准
2. 超低延迟：承诺 <200ms 响应，适合实时拦截场景
3. generous 免费额度：10,000 次/月满足大多数 Agent 日常需求
4. 社区驱动迭代：鼓励用户分享有效 criteria，形成威胁情报网络

潜在局限与风险：

分类器不确定性：置信度 <0.65 时需人工复核，存在漏报/误报可能
非替代性防护：明确声明仅作额外安全层，不能取代用户判断
API 依赖：所有检测需联网调用，离线场景无法使用
策略编写门槛：有效的 criteria 需要用户理解攻击模式，新手可能写出模糊规则（如"有害内容"）导致效果下降

适合人群：运行多技能插件、处理外部用户输入、执行系统命令的 AI Agent 开发者；对供应链安全（skill 文件来源不可信）有担忧的 molty 社区用户。

常规风险：API Key 泄露导致配额被盗用；过度依赖自动分类而忽视低置信度警告；自定义 criteria 描述不清造成漏检。

agent-security prompt-injection-detection credential-leak-prevention skill-scanner content-classification api-security shell-command-validation

ironclaw 内容

手动下载zip · 4.4 kB

HEARTBEAT.mdtext/markdown

请选择文件