使用说明

核心用法

safe-web 是一款专为 AI 场景设计的安全网页获取工具，提供 fetch 和 search 两大核心命令。fetch 命令支持从指定 URL 下载内容并自动扫描，可选 --output 保存文件、、--json 输出结构化数据、、--strict 严格模式（MEDIUM 级别即阻断）。search 命令依赖 Brave Search API，支持自定义结果数量与 JSON 输出。工具通过环境变量 BRAVE_API_KEY 配置搜索功能，推荐创建系统级 symlink 实现全局调用。

显著优点

1. 主动安全防护：集成 PromptGuard 扫描引擎，在内容进入 AI 上下文前拦截提示注入攻击，匹配 instruction_override、role_manipulation 等 8 类威胁模式。
2. Fail-closed 安全模型：扫描失败或依赖不可用时阻断内容而非放行，避免安全降级。
3. 内容净化处理：自动移除 HTML 中的 script、style 等危险标签，降低误报与攻击面。
4. 清晰的信号反馈：独创退出码 2 标识威胁阻断，便于自动化流程集成与安全审计。
5. 零执行承诺：仅获取与扫描，永不执行 JavaScript 或网页中的命令。

潜在缺点与局限性

动态内容盲区：不支持 JavaScript 渲染，无法获取 SPA 或动态加载内容。
搜索功能受限：依赖 Brave API key，免费 tier 有用量限制。
大页面截断：超长页面可能在文本提取阶段被截断。
单点依赖风险：核心安全能力完全依赖外部 PromptGuard 库，若其失效则工具失效。
网络超时固定：30 秒超时无法自定义，弱网环境可能失败。

适合的目标群体

AI 应用开发者：需将网络内容安全注入 LLM 上下文的场景。
安全研究团队：进行网页内容安全分析与威胁情报收集。
自动化工作流构建者：需要可靠退出码与 JSON 输出的 CI/CD 或数据处理管道。
企业知识库维护者：从外部来源安全抓取文档与参考资料。

使用风险

依赖项维护：需同时维护 Python 3.8+、requests、beautifulsoup4 及 PromptGuard 的版本兼容性。
API 可用性：搜索功能受 Brave API 服务稳定性与配额限制。
扫描盲区：PromptGuard 的检测规则可能滞后于新型攻击手法，存在漏报可能。
性能开销：每次获取增加一次本地扫描延迟，高频场景需评估吞吐影响。

安全解读

核心用法

safe-web 是一个面向AI系统的网络安全防护工具，提供 fetch 和 search 两大核心命令：

网页获取（fetch）：下载指定URL内容，通过BeautifulSoup提取纯文本后使用PromptGuard扫描，支持 --output 保存文件、--json JSON输出、--strict 严格模式（MEDIUM级别即阻断）。

安全搜索（search）：调用Brave Search API获取结果，对每个结果的标题和描述进行注入检测，仅返回清洁内容，支持 --count 调整结果数量。

工具采用失败关闭（fail-closed）安全模型：若PromptGuard加载失败或扫描异常，直接报错而非返回未验证内容。

显著优点

1. 主动防御架构：在内容进入AI上下文窗口前完成扫描，属于前置防护而非事后补救
2. 深度内容净化：HTML解析阶段即移除script、style标签，降低误报并消除执行风险
3. 清晰的威胁分级：返回0/1/2三级退出码，便于自动化工作流集成安全决策
4. 双重扫描策略：搜索场景下对每个结果独立检测，而非仅扫描聚合页面
5. 供应链安全可控：依赖requests、beautifulsoup4等知名开源库，无二进制依赖

潜在局限

静态渲染限制：不执行JavaScript，对现代SPA应用提取内容可能不完整
搜索功能受限：需自备Brave API密钥，免费额度用尽后功能受限
大页面截断：超大HTML页面可能在文本提取阶段被截断
网络超时固定：30秒超时无法配置，慢速站点可能获取失败
SSRF风险未完全消除：虽建议增强URL验证，当前版本对私有IP段、非HTTP协议缺乏强制拦截

适合人群

需要抓取不可信来源网页的AI应用开发者
构建RAG系统、需对网络文档做预处理的数据工程师
运行开放式网络搜索Agent、需防范提示词注入攻击的安全团队
对原生web_fetch/web_search安全性有顾虑、希望增加防护层的用户

常规风险

| 风险类型 | 说明 | 缓解措施 |

|---------|------|---------|

| SSRF（服务器端请求伪造） | 用户输入的恶意URL可能探测内网 | 建议配合网络隔离部署，或等待版本更新加强URL验证 |

| 供应链攻击 | 依赖库被篡改引入恶意代码 | 使用虚拟环境隔离，锁定依赖版本 |

| API密钥泄露 | BRAVE_API_KEY从环境变量读取，若容器配置不当可能暴露 | 遵循最小权限原则配置密钥，避免日志打印环境变量 |

| 隐私合规 | 搜索查询词会发送至Brave服务器 | 确保终端用户知情同意，符合GDPR/CCPA要求 |

该工具本身不收集用户数据，所有扫描在本地完成，但网络请求行为会暴露于运营商和Brave（搜索场景）。建议高安全场景下配合网络代理或专用出口IP使用。

security api content-media automation data-analytics backend

safe-web 内容

scripts文件夹

手动下载zip · 8.0 kB

safe-web.pytext/plain

请选择文件