使用说明

核心用法

cluster-agent-swarm 是一套面向 Kubernetes/OpenShift 的多智能体协同运维平台，通过 7 个专业智能体（Orchestrator、Cluster Ops、GitOps、Security、Observability、Artifacts、Developer Experience）实现平台运营的全覆盖。用户可通过 @提及 机制在智能体间派发任务，配合心跳调度（5-15 分钟间隔）实现异步协作。

关键操作流程：
1. 配置 KUBECONFIG 及可选的云凭证（AWS/Azure/GCP）
2. 执行 setup-session.sh 初始化会话上下文
3. 通过 Orchestrator（Jarvis）路由任务，或直接 @ 特定智能体
4. 生产环境变更需人工审批（声明式控制，非技术强制）

显著优点

角色专业化：每个智能体有明确 SOUL 定义，避免通用型 Agent 的能力模糊
多平台兼容：支持 OpenShift、EKS、AKS、GKE、ROSA、ARO 等主流发行版
模块化凭证：按需提供云凭证、GitHub Token、Vault Token，最小权限原则
完整审计链：WORKING.md、LOGS.md、MEMORY.md 持久化会话与操作记录
GitOps 原生：深度集成 ArgoCD、Helm、Kustomize，支持金丝雀、蓝绿部署

潜在缺点与局限性

第三方代码执行风险：从 GitHub 动态拉取并执行 bash 脚本，需人工审计
声明式审批非技术强制："生产需人工批准"是流程约定，依赖外部审批门控
持久化状态扩大 blast radius：自动提交变更到跟踪文件，若仓库权限过宽风险增加
脚本破坏性操作：*-cleanup.sh、*-delete.sh、*-promote.sh 可能误删资源
供应链工具下载：运行时可能拉取 syft、cosign、trivy 等二进制，需可信源

适合人群

运行中等规模 K8s 平台（50+ 节点）的 SRE/平台团队
已采用 GitOps 工作流、需要多集群统一运维的企业
具备脚本审计能力、能建立外部审批门控的成熟团队

常规风险

| 风险类型 | 说明 |

|---------|------|

| 供应链攻击 | GitHub 仓库被篡改后，通过 `npx skills add` 分发恶意脚本 |

| 凭证泄露 | 云凭证配置不当导致集群/云账户被接管 |

| 误操作 | 未在沙箱验证即运行 cleanup/delete 脚本，导致生产数据丢失 |

| 权限蔓延 | 长期运行的智能体凭证未及时轮换 |

| 审批绕过 | 过度依赖智能体自声明的"人工审批"，未配置技术门控 |

缓解建议：固定版本标签（非 main 分支）、沙箱先行、独立审批门控、最小权限服务账号。

kubernetes openshift multi-agent gitops platform-engineering sre cluster-management argo-cd observability security-scanning

Kubernetes Agent Swarm 内容

agents文件夹

assets文件夹

incidents文件夹

logs文件夹

memory文件夹

shared文件夹

lib文件夹

skills文件夹

artifacts文件夹

scripts文件夹

cluster-ops文件夹

scripts文件夹

developer-experience文件夹

scripts文件夹

gitops文件夹

scripts文件夹

observability文件夹

scripts文件夹

orchestrator文件夹

scripts文件夹

security文件夹

scripts文件夹

troubleshooting文件夹

working文件夹

手动下载zip · 168.4 kB

AGENTS.mdtext/markdown

请选择文件