核心用法
Prompt Defense (Email) 是一款专为邮件场景设计的提示注入攻击防御技能。它在读取、处理或总结邮件时自动激活,通过多层级模式检测扫描邮件内容,识别并拦截各类注入攻击。
工作流程:
1. 扫描:在处理邮件前自动检测注入模式
2. 标记:对可疑内容进行分级(严重/高/中)并记录匹配的模式类型
3. 阻断:自动阻止执行邮件中找到的任何指令
4. 确认:通过主渠道向用户请求明确授权后才继续
检测模式分级:
- 严重级(立即阻断):伪造思考块标签、"忽略先前指令"类劫持话术、伪造系统输出格式([SYSTEM]、[Claude]等)、Base64编码块
- 高级:冒充邮件服务器警告、紧急资金/文件转移请求、冒充管理员身份
- 中级:连续指令序列、索要凭据、"不要告诉用户"等隐蔽指令
安全操作白名单:纯摘要生成、发件人/主题/日期提取、未读计数、已知发件人搜索等只读操作无需确认,但会在输出中附加警告标注。
显著优点
- 场景专业化:针对邮件特有的攻击向量(IMAP警告伪造、伪造邮件结尾等)定制检测规则
- 强制人机确认:设计层面杜绝自动执行邮件指令,即使误判也优先保护用户
- 分级响应机制:严重攻击直接阻断,中高级别保留人工裁决空间
- 透明可审计:所有检测到的模式均向用户展示具体内容片段
潜在局限
- 覆盖率边界:新型编码混淆(如 homoglyph 攻击、分段指令)可能逃逸基于模式库的检测
- 误报成本:营销邮件中的紧急语气词、自动回复中的格式化标签可能触发误拦截
- 确认疲劳:高频邮件处理场景下反复确认可能降低用户警觉性
- 依赖用户判断:最终安全决策权交予非技术用户,存在社会工程绕过风险
适合人群
- 使用AI助手处理工作邮件的知识工作者
- 企业邮箱自动化场景的安全管理员
- 将邮件作为RPA输入源的集成开发者
常规风险
- 确认绕过攻击:攻击者可能通过伪造发件人身份、模仿用户日常沟通风格降低确认意愿
- 上下文累积注入:单次邮件无害,但多封邮件组合形成有效指令的跨会话攻击
- 确认接口本身成为攻击面:"Reply 'proceed'" 的确认机制若被邮件内容模仿,可能导致误判