Kubernetes Agent Swarm

🐝 七智能体协同,全栈 K8s 运维

devops榜 #14

七智能体协同的 Kubernetes/OpenShift 平台运维系统,覆盖集群生命周期、GitOps、安全、可观测性等全栈能力。

收藏
28.4k
安装
6.9k
版本
1.0.6
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

cluster-agent-swarm 是一套面向 Kubernetes/OpenShift 的多智能体协同运维平台,通过 7 个专业智能体(Orchestrator、Cluster Ops、GitOps、Security、Observability、Artifacts、Developer Experience)实现平台运营的全覆盖。用户可通过 @提及 机制在智能体间派发任务,配合心跳调度(5-15 分钟间隔)实现异步协作。

关键操作流程
1. 配置 KUBECONFIG 及可选的云凭证(AWS/Azure/GCP)

2. 执行 setup-session.sh 初始化会话上下文

3. 通过 Orchestrator(Jarvis)路由任务,或直接 @ 特定智能体

4. 生产环境变更需人工审批(声明式控制,非技术强制)

显著优点

  • 角色专业化:每个智能体有明确 SOUL 定义,避免通用型 Agent 的能力模糊
  • 多平台兼容:支持 OpenShift、EKS、AKS、GKE、ROSA、ARO 等主流发行版
  • 模块化凭证:按需提供云凭证、GitHub Token、Vault Token,最小权限原则
  • 完整审计链WORKING.mdLOGS.mdMEMORY.md 持久化会话与操作记录
  • GitOps 原生:深度集成 ArgoCD、Helm、Kustomize,支持金丝雀、蓝绿部署

潜在缺点与局限性

  • 第三方代码执行风险:从 GitHub 动态拉取并执行 bash 脚本,需人工审计
  • 声明式审批非技术强制:"生产需人工批准"是流程约定,依赖外部审批门控
  • 持久化状态扩大 blast radius:自动提交变更到跟踪文件,若仓库权限过宽风险增加
  • 脚本破坏性操作*-cleanup.sh*-delete.sh*-promote.sh 可能误删资源
  • 供应链工具下载:运行时可能拉取 syft、cosign、trivy 等二进制,需可信源

适合人群

  • 运行中等规模 K8s 平台(50+ 节点)的 SRE/平台团队
  • 已采用 GitOps 工作流、需要多集群统一运维的企业
  • 具备脚本审计能力、能建立外部审批门控的成熟团队

常规风险

| 风险类型 | 说明 |
|---------|------|
| 供应链攻击 | GitHub 仓库被篡改后,通过 `npx skills add` 分发恶意脚本 |
| 凭证泄露 | 云凭证配置不当导致集群/云账户被接管 |
| 误操作 | 未在沙箱验证即运行 cleanup/delete 脚本,导致生产数据丢失 |
| 权限蔓延 | 长期运行的智能体凭证未及时轮换 |
| 审批绕过 | 过度依赖智能体自声明的"人工审批",未配置技术门控 |

缓解建议:固定版本标签(非 main 分支)、沙箱先行、独立审批门控、最小权限服务账号。

Kubernetes Agent Swarm 内容

暂无文件树

手动下载zip · 168.4 kB
contentapplication/octet-stream
请选择文件