Kubernetes Agent Swarm

🐝 多智能体 Kubernetes 运维平台

devops榜 #13

多智能体协调系统,覆盖 Kubernetes/OpenShift 全生命周期运维,7个专用代理协同完成集群操作、GitOps、安全、可观测性等任务

收藏
16.6k
安装
6.9k
版本
1.0.2
CLS 安全性认证2026-05-16
点击查看完整报告 >

使用说明

核心用法

Cluster Agent Swarm 是一个企业级多智能体平台运维系统,通过 7 个专业化代理(Orchestrator/Cluster Ops/GitOps/Security/Observability/Artifacts/Developer Experience)协同工作,覆盖 Kubernetes 与 OpenShift 全平台。用户可通过统一入口调用完整能力栈,或按需安装独立技能模块。

部署方式

  • 完整安装:npx skills add https://github.com/kcns008/cluster-agent-swarm-skills
  • 单代理安装:通过 GitHub tree 路径指定具体技能

前置要求

  • 集群访问:有效 kubeconfig、kubectl/oc CLI
  • 云凭证:AWS/Azure/GCP 认证(对应平台)
  • 可选集成:ArgoCD、Prometheus、Vault、容器仓库

典型工作流
1. 执行 setup-session.sh 初始化环境上下文

2. 通过 @提及机制跨代理协作(如 @Shield 审核 RBAC 后 @Flow 执行同步)

3. 代理按 staggered heartbeat(5-15分钟间隔)自主唤醒处理任务

显著优点

  • 角色专业化:每个代理有明确定义域,避免通用模型的能力稀释
  • 企业级覆盖:支持 OCP、EKS、AKS、GKE、ROSA、ARO 六大主流平台
  • 安全内建:最小权限原则、生产变更人工审批、全操作审计日志
  • GitOps 原生:深度集成 ArgoCD、Helm、Kustomize,支持多集群 ApplicationSet
  • 人机协作:预定义 guardrails,危险操作强制 human-in-the-loop

潜在局限

  • 凭证复杂度:需预先配置多类云凭证与工具链,初始化门槛较高
  • OpenShift 偏向:虽然声明多平台支持,但 oc CLI 依赖暗示 OCP 优化更深
  • 心跳延迟:非实时响应,P1 事件依赖 5 分钟轮询而非事件驱动
  • 外部依赖重:核心能力依赖 ArgoCD、Prometheus 等外部系统就绪
  • 社区维护状态:GitHub 仓库活跃度与长期维护承诺未经验证

适合人群

  • 运行多集群 Kubernetes/OpenShift 的平台工程团队
  • 已采用 GitOps 工作流并寻求自动化增强的 SRE 组织
  • 需要标准化运维流程、降低人工操作风险的 DevOps 团队
  • 具备成熟凭证管理体系和云原生工具链的中大型企业

常规风险

| 风险类别 | 描述 | 缓解机制 |
|---------|------|---------|
| 凭证泄露 | kubeconfig、云凭证需明文或环境变量配置 | 强制 least privilege、审计日志、禁止代码内嵌 secrets |
| 误操作生产 | 代理可能意外执行破坏性命令 | 生产环境强制人工审批、预定义禁止操作清单 |
| 供应链安全 | 技能包来源为个人 GitHub 仓库(kcns008) | 需代码审计、SBOM 验证、内部镜像托管 |
| 代理冲突 | 多代理并行可能产生竞态条件 | Orchestrator 统一协调、任务状态文件锁 |
| 集成失效 | 外部系统(ArgoCD/Vault)不可用时功能降级 | 优雅降级设计、显式依赖健康检查 |

安全解读

Cluster Agent Swarm — 企业级Kubernetes多Agent智能运维平台

核心定位

Cluster Agent Swarm 是一套面向Kubernetes/OpenShift平台的多Agent协同运维系统,由7个专业化Agent组成:Orchestrator(任务编排)、Cluster Ops(集群运维)、GitOps(持续交付)、Security(安全治理)、Observability(可观测性)、Artifacts(制品管理)和Developer Experience(开发者体验)。采用"角色专业化 + 协同通信"的Swarm架构,通过@Mention机制实现Agent间任务流转与信息同步。

显著优点

  • 全栈覆盖能力:单一平台整合集群生命周期管理、GitOps交付、安全合规、监控告警、制品流转、开发者自助服务等完整DevOps链路
  • 多云原生支持:深度适配OpenShift、EKS、AKS、GKE、ROSA、ARO等主流发行版,工具链统一(kubectl/oc/argocd/helm/kustomize)
  • 安全优先设计:强制"Human-in-the-Loop"机制,生产环境删除、策略修改、密钥操作等高危动作需人工审批;全量操作审计日志;凭证动态获取、零硬编码
  • 智能协同机制:基于Heartbeat的错峰调度(5/10/15分钟梯度),避免资源争抢;任务自动路由至最优Agent,支持跨Agent订阅与升级
  • 可扩展架构:支持整体安装或按需订阅单个Agent,模块化部署灵活

潜在局限与风险

  • 凭证配置门槛高:需预配置Kubeconfig、云厂商IAM(AWS/Azure/GCP)、ArgoCD/Vault等6类凭证,文档复杂度高,新手易配置失败
  • 依赖共享库缺陷:36个脚本引用不存在的shared/lib/preflight.sh,虽因set -e保护不会导致安全问题,但会造成功能失效
  • 动态代码执行:3处eval curl用于Prometheus/Loki API查询,虽处于OpenShift认证保护下,仍存在理论注入风险
  • T3来源可信度:维护者为个人开发者kcns008,缺乏企业背书,需额外人工审查
  • 生产审批摩擦:安全机制导致高频操作(如紧急扩缩容)可能产生审批延迟

适合人群

  • 平台工程团队:需统一管控多集群、多云环境的SRE/Platform Engineer
  • 企业DevOps中心:追求GitOps标准化、安全合规自动化的大型组织
  • OpenShift重度用户:依赖ROSA/ARO/自建OCP的Red Hat生态企业

常规风险

| 风险类型 | 等级 | 说明 |
|---------|------|------|
| 凭证泄露误配 | 中 | 多类云凭证集中管理,配置不当易导致权限扩散 |
| 共享库缺失 | 中 | preflight.sh缺失导致脚本功能异常,非安全漏洞 |
| eval注入 | 低 | API查询参数经本地验证+OpenShift令牌保护,风险可控 |
| 生产审批阻塞 | 低 | 紧急场景下Human-in-the-Loop可能延缓响应 |

安全认证

  • 综合评分: 78/100 (Grade A)
  • 静态分析: 82分 — 代码结构清晰,无危险函数滥用
  • 动态行为: 75分 — eval curl在可控上下文
  • 依赖审计: 95分 — 零外部依赖,仅系统命令
  • 威胁情报: 90分 — 无已知恶意模式,功能与声明一致

Kubernetes Agent Swarm 内容

agents文件夹
assets文件夹
incidents文件夹
logs文件夹
memory文件夹
skills文件夹
artifacts文件夹
scripts文件夹
cluster-ops文件夹
scripts文件夹
developer-experience文件夹
scripts文件夹
gitops文件夹
scripts文件夹
observability文件夹
scripts文件夹
orchestrator文件夹
scripts文件夹
qmd文件夹
security文件夹
scripts文件夹
troubleshooting文件夹
working文件夹
手动下载zip · 165.9 kB
AGENTS.mdtext/markdown
请选择文件