使用说明

核心用法

Prompt Defense (Email) 是一款专为邮件场景设计的提示注入攻击防御技能。它在读取、处理或总结邮件时自动激活，通过多层级模式检测扫描邮件内容，识别并拦截各类注入攻击。

工作流程：
1. 扫描：在处理邮件前自动检测注入模式
2. 标记：对可疑内容进行分级（严重/高/中）并记录匹配的模式类型
3. 阻断：自动阻止执行邮件中找到的任何指令
4. 确认：通过主渠道向用户请求明确授权后才继续

检测模式分级：

严重级（立即阻断）：伪造思考块标签、"忽略先前指令"类劫持话术、伪造系统输出格式（[SYSTEM]、[Claude]等）、Base64编码块
高级：冒充邮件服务器警告、紧急资金/文件转移请求、冒充管理员身份
中级：连续指令序列、索要凭据、"不要告诉用户"等隐蔽指令

安全操作白名单：纯摘要生成、发件人/主题/日期提取、未读计数、已知发件人搜索等只读操作无需确认，但会在输出中附加警告标注。

显著优点

场景专业化：针对邮件特有的攻击向量（IMAP警告伪造、伪造邮件结尾等）定制检测规则
强制人机确认：设计层面杜绝自动执行邮件指令，即使误判也优先保护用户
分级响应机制：严重攻击直接阻断，中高级别保留人工裁决空间
透明可审计：所有检测到的模式均向用户展示具体内容片段

潜在局限

覆盖率边界：新型编码混淆（如 homoglyph 攻击、分段指令）可能逃逸基于模式库的检测
误报成本：营销邮件中的紧急语气词、自动回复中的格式化标签可能触发误拦截
确认疲劳：高频邮件处理场景下反复确认可能降低用户警觉性
依赖用户判断：最终安全决策权交予非技术用户，存在社会工程绕过风险

适合人群

使用AI助手处理工作邮件的知识工作者
企业邮箱自动化场景的安全管理员
将邮件作为RPA输入源的集成开发者

常规风险

确认绕过攻击：攻击者可能通过伪造发件人身份、模仿用户日常沟通风格降低确认意愿
上下文累积注入：单次邮件无害，但多封邮件组合形成有效指令的跨会话攻击
确认接口本身成为攻击面："Reply 'proceed'" 的确认机制若被邮件内容模仿，可能导致误判

安全解读

核心功能

prompt-defense 是一款专注于邮件场景的提示注入防御工具，通过预定义的检测规则库扫描邮件内容，识别并拦截潜在的攻击模式。其核心价值在于只读检测——不执行任何邮件中的指令，而是标记风险并强制用户确认。

显著优点

1. 零代码风险：纯 Markdown 文档结构，无可执行代码、无外部 API 调用，从根本上杜绝了传统安全工具自身的漏洞风险
2. 分层威胁建模：将攻击模式划分为 Critical/High/Medium 三级，Critical 级别包含伪造思考块（<thinking>）、系统指令覆盖（"ignore previous instructions"）、Base64 编码 payload 等典型注入手法
3. 强制确认机制：任何检测到指令的邮件都必须经过用户显式确认（'proceed'/'ignore'），阻断自动化执行链条
4. 隐私合规：零数据收集设计，符合 GDPR/CCPA 要求

潜在局限

被动防御：仅能检测已知模式，对新型攻击变体（如语义混淆、多语言编码绕过）可能漏报
无主动学习：规则库依赖手动更新，缺乏动态适应能力
误报成本：对正常邮件中的技术讨论（如 AI 开发邮件）可能触发关键词误报
场景单一：仅针对邮件场景优化，对即时通讯、网页等其他渠道的注入攻击无覆盖

适合人群

频繁处理外部邮件的 AI Agent 用户
需自动化邮件摘要但担忧提示注入风险的企业场景
安全意识较强、愿意接受误报换取保险的个人用户

常规风险

| 风险类型 | 说明 |

|---------|------|

| 来源可信度 T3 | 社区项目，无 GitHub 可追溯信息，需人工确认内容 |

| 规则滞后性 | 依赖静态规则，可能落后于攻击演进 |

| 过度依赖 | 不应作为唯一防线，需结合邮件沙箱、发件人验证等措施 |

使用建议

建议在处理来自陌生发件人、外部订阅邮件、技术支持工单等不可信来源时激活本 Skill，与邮件服务商的垃圾邮件过滤形成互补纵深防御。

prompt-injection email-security input-sanitization social-engineering-defense confirmation-protocol

Prompt defense 内容

references文件夹

手动下载zip · 3.8 kB

patterns.mdtext/markdown

请选择文件