使用说明

Chaos Lab 是一个创新的多智能体AI安全研究框架，旨在通过构造具有冲突优化目标的Gemini智能体来实践观察AI对齐问题。该工具由Sky & Jaret开发，允许研究者同时部署多个具有不同"性格"的AI代理（如追求效率的Gremlin、过度警惕的Goblin和极端归档的Gopher），让它们分析同一工作空间并观察由此产生的冲突与涌现行为。

使用该技能时，研究者首先需在本地配置Gemini API密钥并创建沙盒环境。通过运行预设的脚本（run-duo.py或run-trio.py），系统会让不同目标的智能体对/tmp/chaos-sandbox/目录下的文件进行分析。每个智能体基于其特定的系统提示词生成对该工作空间的"建议"，这些建议往往相互矛盾——例如Gremlin可能建议删除"冗余"文件，而Gopher则坚持备份一切，Goblin则怀疑所有操作都可能是攻击。实验结果会保存在本地日志文件中供后续分析。

该框架的显著优点在于其教育价值和可访问性。它将抽象的AI对齐理论转化为可观察的实验现象，特别是其关于"更智能的模型不会减少混乱，反而更擅长为其辩护"的发现具有重要启示意义。通过对比Gemini Flash和Pro模型的行为差异，研究者可以直观理解模型能力如何影响价值冲突的表现形式。此外，默认的沙盒设计仅生成文本建议而不实际执行文件操作，确保了实验的安全性。

然而，该技能也存在一定局限性。首先，它依赖Google Gemini API，每次实验需要进行4-6次API调用，使用Pro模型时成本较高。其次，作为T3来源的社区项目，缺乏企业级维护和支持。技术上，依赖库版本未在代码中显式锁定，可能存在兼容性风险。此外，虽然默认安全，但文档中提到的tool-access.md描述了如何启用实际文件操作，这如果被误用可能带来数据风险。

该技能特别适合AI安全研究人员、计算机科学教育者以及prompt工程师使用。对于研究人员，它提供了一个低成本的多智能体对齐实验平台；对于教育者，它是演示AI价值冲突和涌现行为的理想教学工具；对于prompt工程师，它展示了系统提示词如何塑造模型行为。但普通终端用户若无AI安全研究背景，可能难以充分利用其价值。

使用时的主要风险包括API成本累积、数据隐私（需要将文件内容发送至Gemini API）以及潜在的误操作风险。尽管默认配置安全，但用户应严格避免启用文档中标记为"危险"的工具访问功能，确保实验仅在/tmp/chaos-sandbox/目录进行，并妥善管理API密钥的存储权限。

安全解读

核心用法

Chaos Lab 是一个多智能体 AI 安全研究框架，通过创建具有冲突优化目标的 Gemini 代理来观察涌现行为。使用者配置 API 密钥后，可运行双代理（Gremlin 效率优化器 vs Goblin 安全偏执狂）或三代理（增加 Gopher 归档狂）实验，分析同一工作区时产生的对抗行为。

显著优点

研究价值突出：将抽象的 AI 对齐问题转化为可观察的实验，实证发现"更聪明模型会更好地为自己的混乱决策辩护"这一反直觉结论。

架构设计合理：沙盒化运行（仅限 /tmp/chaos-sandbox/），代理仅生成文本建议不实际修改文件系统，安全边界清晰。

代码质量良好：纯标准库实现（os, json, requests），无第三方依赖，结构清晰易于审计和扩展。

教育意义强：适合向非技术受众演示 AI 安全概念，支持自定义代理个性和场景。

潜在局限

外部依赖重：完全依赖 Google Gemini API 可用性和网络连接，每次实验 4-6 次 API 调用产生费用。

数据外发风险：工作区文件内容通过 HTTPS 发送至 Google 服务器，需确保不含敏感信息。

个人开发者来源：作者 Sky & Jaret 为社区项目，未经过企业级安全审计（T3 级别）。

适合人群

AI 安全研究者、对齐问题学习者、Prompt 工程师、技术教育工作者，以及对多智能体系统涌现行为感兴趣的开发人员。

常规风险

文件内容外发至第三方云服务
API 密钥需妥善保管（建议 chmod 600）
Pro 模型调用成本较高，建议先用 Flash 测试

ai-safety multi-agent education-research development-engineering automation testing

chaos-lab 内容

docs文件夹

examples文件夹

scripts文件夹

手动下载zip · 31.3 kB

tool-access.mdtext/markdown

请选择文件