chaos-lab

🧪 多智能体AI对齐冲突实验平台

基于Gemini的AI安全研究框架,通过多智能体冲突实验观察对齐问题,为研究者提供可控的涌现行为分析平台。

收藏
10.8k
安装
2.3k
版本
v1.0.0
CLS 安全性认证2026-05-06
点击查看完整报告 >

使用说明

Chaos Lab 是一个创新的多智能体AI安全研究框架,旨在通过构造具有冲突优化目标的Gemini智能体来实践观察AI对齐问题。该工具由Sky & Jaret开发,允许研究者同时部署多个具有不同"性格"的AI代理(如追求效率的Gremlin、过度警惕的Goblin和极端归档的Gopher),让它们分析同一工作空间并观察由此产生的冲突与涌现行为。

使用该技能时,研究者首先需在本地配置Gemini API密钥并创建沙盒环境。通过运行预设的脚本(run-duo.py或run-trio.py),系统会让不同目标的智能体对/tmp/chaos-sandbox/目录下的文件进行分析。每个智能体基于其特定的系统提示词生成对该工作空间的"建议",这些建议往往相互矛盾——例如Gremlin可能建议删除"冗余"文件,而Gopher则坚持备份一切,Goblin则怀疑所有操作都可能是攻击。实验结果会保存在本地日志文件中供后续分析。

该框架的显著优点在于其教育价值和可访问性。它将抽象的AI对齐理论转化为可观察的实验现象,特别是其关于"更智能的模型不会减少混乱,反而更擅长为其辩护"的发现具有重要启示意义。通过对比Gemini Flash和Pro模型的行为差异,研究者可以直观理解模型能力如何影响价值冲突的表现形式。此外,默认的沙盒设计仅生成文本建议而不实际执行文件操作,确保了实验的安全性。

然而,该技能也存在一定局限性。首先,它依赖Google Gemini API,每次实验需要进行4-6次API调用,使用Pro模型时成本较高。其次,作为T3来源的社区项目,缺乏企业级维护和支持。技术上,依赖库版本未在代码中显式锁定,可能存在兼容性风险。此外,虽然默认安全,但文档中提到的tool-access.md描述了如何启用实际文件操作,这如果被误用可能带来数据风险。

该技能特别适合AI安全研究人员、计算机科学教育者以及prompt工程师使用。对于研究人员,它提供了一个低成本的多智能体对齐实验平台;对于教育者,它是演示AI价值冲突和涌现行为的理想教学工具;对于prompt工程师,它展示了系统提示词如何塑造模型行为。但普通终端用户若无AI安全研究背景,可能难以充分利用其价值。

使用时的主要风险包括API成本累积、数据隐私(需要将文件内容发送至Gemini API)以及潜在的误操作风险。尽管默认配置安全,但用户应严格避免启用文档中标记为"危险"的工具访问功能,确保实验仅在/tmp/chaos-sandbox/目录进行,并妥善管理API密钥的存储权限。

安全解读

核心用法

Chaos Lab 是一个多智能体 AI 安全研究框架,通过创建具有冲突优化目标的 Gemini 代理来观察涌现行为。使用者配置 API 密钥后,可运行双代理(Gremlin 效率优化器 vs Goblin 安全偏执狂)或三代理(增加 Gopher 归档狂)实验,分析同一工作区时产生的对抗行为。

显著优点

研究价值突出:将抽象的 AI 对齐问题转化为可观察的实验,实证发现"更聪明模型会更好地为自己的混乱决策辩护"这一反直觉结论。

架构设计合理:沙盒化运行(仅限 /tmp/chaos-sandbox/),代理仅生成文本建议不实际修改文件系统,安全边界清晰。

代码质量良好:纯标准库实现(os, json, requests),无第三方依赖,结构清晰易于审计和扩展。

教育意义强:适合向非技术受众演示 AI 安全概念,支持自定义代理个性和场景。

潜在局限

外部依赖重:完全依赖 Google Gemini API 可用性和网络连接,每次实验 4-6 次 API 调用产生费用。

数据外发风险:工作区文件内容通过 HTTPS 发送至 Google 服务器,需确保不含敏感信息。

个人开发者来源:作者 Sky & Jaret 为社区项目,未经过企业级安全审计(T3 级别)。

适合人群

AI 安全研究者、对齐问题学习者、Prompt 工程师、技术教育工作者,以及对多智能体系统涌现行为感兴趣的开发人员。

常规风险

  • 文件内容外发至第三方云服务
  • API 密钥需妥善保管(建议 chmod 600)
  • Pro 模型调用成本较高,建议先用 Flash 测试

chaos-lab 内容

docs文件夹
examples文件夹
scripts文件夹
手动下载zip · 31.3 kB
tool-access.mdtext/markdown
请选择文件