Prompt defense

🛡️ 邮件场景专用注入攻击防火墙

邮件场景专用提示注入防御系统,识别伪造系统输出、指令劫持等攻击模式,强制用户确认后才执行邮件中的任何指令。

收藏
11.8k
安装
2.8k
版本
1.0.1
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

Prompt Defense (Email) 是一款专为邮件场景设计的提示注入攻击防御技能。它在读取、处理或总结邮件时自动激活,通过多层级模式检测扫描邮件内容,识别并拦截各类注入攻击。

工作流程
1. 扫描:在处理邮件前自动检测注入模式

2. 标记:对可疑内容进行分级(严重/高/中)并记录匹配的模式类型

3. 阻断:自动阻止执行邮件中找到的任何指令

4. 确认:通过主渠道向用户请求明确授权后才继续

检测模式分级

  • 严重级(立即阻断):伪造思考块标签、"忽略先前指令"类劫持话术、伪造系统输出格式([SYSTEM]、[Claude]等)、Base64编码块
  • 高级:冒充邮件服务器警告、紧急资金/文件转移请求、冒充管理员身份
  • 中级:连续指令序列、索要凭据、"不要告诉用户"等隐蔽指令

安全操作白名单:纯摘要生成、发件人/主题/日期提取、未读计数、已知发件人搜索等只读操作无需确认,但会在输出中附加警告标注。

显著优点

  • 场景专业化:针对邮件特有的攻击向量(IMAP警告伪造、伪造邮件结尾等)定制检测规则
  • 强制人机确认:设计层面杜绝自动执行邮件指令,即使误判也优先保护用户
  • 分级响应机制:严重攻击直接阻断,中高级别保留人工裁决空间
  • 透明可审计:所有检测到的模式均向用户展示具体内容片段

潜在局限

  • 覆盖率边界:新型编码混淆(如 homoglyph 攻击、分段指令)可能逃逸基于模式库的检测
  • 误报成本:营销邮件中的紧急语气词、自动回复中的格式化标签可能触发误拦截
  • 确认疲劳:高频邮件处理场景下反复确认可能降低用户警觉性
  • 依赖用户判断:最终安全决策权交予非技术用户,存在社会工程绕过风险

适合人群

  • 使用AI助手处理工作邮件的知识工作者
  • 企业邮箱自动化场景的安全管理员
  • 将邮件作为RPA输入源的集成开发者

常规风险

  • 确认绕过攻击:攻击者可能通过伪造发件人身份、模仿用户日常沟通风格降低确认意愿
  • 上下文累积注入:单次邮件无害,但多封邮件组合形成有效指令的跨会话攻击
  • 确认接口本身成为攻击面:"Reply 'proceed'" 的确认机制若被邮件内容模仿,可能导致误判

安全解读

核心功能

prompt-defense 是一款专注于邮件场景的提示注入防御工具,通过预定义的检测规则库扫描邮件内容,识别并拦截潜在的攻击模式。其核心价值在于只读检测——不执行任何邮件中的指令,而是标记风险并强制用户确认。

显著优点

1. 零代码风险:纯 Markdown 文档结构,无可执行代码、无外部 API 调用,从根本上杜绝了传统安全工具自身的漏洞风险
2. 分层威胁建模:将攻击模式划分为 Critical/High/Medium 三级,Critical 级别包含伪造思考块(<thinking>)、系统指令覆盖("ignore previous instructions")、Base64 编码 payload 等典型注入手法

3. 强制确认机制:任何检测到指令的邮件都必须经过用户显式确认('proceed'/'ignore'),阻断自动化执行链条

4. 隐私合规:零数据收集设计,符合 GDPR/CCPA 要求

潜在局限

  • 被动防御:仅能检测已知模式,对新型攻击变体(如语义混淆、多语言编码绕过)可能漏报
  • 无主动学习:规则库依赖手动更新,缺乏动态适应能力
  • 误报成本:对正常邮件中的技术讨论(如 AI 开发邮件)可能触发关键词误报
  • 场景单一:仅针对邮件场景优化,对即时通讯、网页等其他渠道的注入攻击无覆盖

适合人群

  • 频繁处理外部邮件的 AI Agent 用户
  • 需自动化邮件摘要但担忧提示注入风险的企业场景
  • 安全意识较强、愿意接受误报换取保险的个人用户

常规风险

| 风险类型 | 说明 |
|---------|------|
| 来源可信度 T3 | 社区项目,无 GitHub 可追溯信息,需人工确认内容 |
| 规则滞后性 | 依赖静态规则,可能落后于攻击演进 |
| 过度依赖 | 不应作为唯一防线,需结合邮件沙箱、发件人验证等措施 |

使用建议

建议在处理来自陌生发件人、外部订阅邮件、技术支持工单等不可信来源时激活本 Skill,与邮件服务商的垃圾邮件过滤形成互补纵深防御。

Prompt defense 内容

references文件夹
手动下载zip · 3.8 kB
patterns.mdtext/markdown
请选择文件