使用说明

核心用法

Cluster Agent Swarm 是一个企业级多智能体平台运维系统，通过 7 个专业化代理（Orchestrator/Cluster Ops/GitOps/Security/Observability/Artifacts/Developer Experience）协同工作，覆盖 Kubernetes 与 OpenShift 全平台。用户可通过统一入口调用完整能力栈，或按需安装独立技能模块。

部署方式：

完整安装：npx skills add https://github.com/kcns008/cluster-agent-swarm-skills
单代理安装：通过 GitHub tree 路径指定具体技能

前置要求：

集群访问：有效 kubeconfig、kubectl/oc CLI
云凭证：AWS/Azure/GCP 认证（对应平台）
可选集成：ArgoCD、Prometheus、Vault、容器仓库

典型工作流：
1. 执行 setup-session.sh 初始化环境上下文
2. 通过 @提及机制跨代理协作（如 @Shield 审核 RBAC 后 @Flow 执行同步）
3. 代理按 staggered heartbeat（5-15分钟间隔）自主唤醒处理任务

显著优点

角色专业化：每个代理有明确定义域，避免通用模型的能力稀释
企业级覆盖：支持 OCP、EKS、AKS、GKE、ROSA、ARO 六大主流平台
安全内建：最小权限原则、生产变更人工审批、全操作审计日志
GitOps 原生：深度集成 ArgoCD、Helm、Kustomize，支持多集群 ApplicationSet
人机协作：预定义 guardrails，危险操作强制 human-in-the-loop

潜在局限

凭证复杂度：需预先配置多类云凭证与工具链，初始化门槛较高
OpenShift 偏向：虽然声明多平台支持，但 oc CLI 依赖暗示 OCP 优化更深
心跳延迟：非实时响应，P1 事件依赖 5 分钟轮询而非事件驱动
外部依赖重：核心能力依赖 ArgoCD、Prometheus 等外部系统就绪
社区维护状态：GitHub 仓库活跃度与长期维护承诺未经验证

适合人群

运行多集群 Kubernetes/OpenShift 的平台工程团队
已采用 GitOps 工作流并寻求自动化增强的 SRE 组织
需要标准化运维流程、降低人工操作风险的 DevOps 团队
具备成熟凭证管理体系和云原生工具链的中大型企业

常规风险

| 风险类别 | 描述 | 缓解机制 |

|---------|------|---------|

| 凭证泄露 | kubeconfig、云凭证需明文或环境变量配置 | 强制 least privilege、审计日志、禁止代码内嵌 secrets |

| 误操作生产 | 代理可能意外执行破坏性命令 | 生产环境强制人工审批、预定义禁止操作清单 |

| 供应链安全 | 技能包来源为个人 GitHub 仓库（kcns008） | 需代码审计、SBOM 验证、内部镜像托管 |

| 代理冲突 | 多代理并行可能产生竞态条件 | Orchestrator 统一协调、任务状态文件锁 |

| 集成失效 | 外部系统（ArgoCD/Vault）不可用时功能降级 | 优雅降级设计、显式依赖健康检查 |

安全解读

Cluster Agent Swarm — 企业级Kubernetes多Agent智能运维平台

核心定位

Cluster Agent Swarm 是一套面向Kubernetes/OpenShift平台的多Agent协同运维系统，由7个专业化Agent组成：Orchestrator（任务编排）、Cluster Ops（集群运维）、GitOps（持续交付）、Security（安全治理）、Observability（可观测性）、Artifacts（制品管理）和Developer Experience（开发者体验）。采用"角色专业化 + 协同通信"的Swarm架构，通过@Mention机制实现Agent间任务流转与信息同步。

显著优点

全栈覆盖能力：单一平台整合集群生命周期管理、GitOps交付、安全合规、监控告警、制品流转、开发者自助服务等完整DevOps链路
多云原生支持：深度适配OpenShift、EKS、AKS、GKE、ROSA、ARO等主流发行版，工具链统一（kubectl/oc/argocd/helm/kustomize）
安全优先设计：强制"Human-in-the-Loop"机制，生产环境删除、策略修改、密钥操作等高危动作需人工审批；全量操作审计日志；凭证动态获取、零硬编码
智能协同机制：基于Heartbeat的错峰调度（5/10/15分钟梯度），避免资源争抢；任务自动路由至最优Agent，支持跨Agent订阅与升级
可扩展架构：支持整体安装或按需订阅单个Agent，模块化部署灵活

潜在局限与风险

凭证配置门槛高：需预配置Kubeconfig、云厂商IAM（AWS/Azure/GCP）、ArgoCD/Vault等6类凭证，文档复杂度高，新手易配置失败
依赖共享库缺陷：36个脚本引用不存在的shared/lib/preflight.sh，虽因set -e保护不会导致安全问题，但会造成功能失效
动态代码执行：3处eval curl用于Prometheus/Loki API查询，虽处于OpenShift认证保护下，仍存在理论注入风险
T3来源可信度：维护者为个人开发者kcns008，缺乏企业背书，需额外人工审查
生产审批摩擦：安全机制导致高频操作（如紧急扩缩容）可能产生审批延迟

适合人群

平台工程团队：需统一管控多集群、多云环境的SRE/Platform Engineer
企业DevOps中心：追求GitOps标准化、安全合规自动化的大型组织
OpenShift重度用户：依赖ROSA/ARO/自建OCP的Red Hat生态企业

常规风险

| 风险类型 | 等级 | 说明 |

|---------|------|------|

| 凭证泄露误配 | 中 | 多类云凭证集中管理，配置不当易导致权限扩散 |

| 共享库缺失 | 中 | preflight.sh缺失导致脚本功能异常，非安全漏洞 |

| eval注入 | 低 | API查询参数经本地验证+OpenShift令牌保护，风险可控 |

| 生产审批阻塞 | 低 | 紧急场景下Human-in-the-Loop可能延缓响应 |

安全认证

综合评分: 78/100 (Grade A)
静态分析: 82分 — 代码结构清晰，无危险函数滥用
动态行为: 75分 — eval curl在可控上下文
依赖审计: 95分 — 零外部依赖，仅系统命令
威胁情报: 90分 — 无已知恶意模式，功能与声明一致

Kubernetes Agent Swarm 内容

agents文件夹

assets文件夹

incidents文件夹

logs文件夹

memory文件夹

skills文件夹

artifacts文件夹

scripts文件夹

cluster-ops文件夹

scripts文件夹

developer-experience文件夹

scripts文件夹

gitops文件夹

scripts文件夹

observability文件夹

scripts文件夹

orchestrator文件夹

scripts文件夹

qmd文件夹

security文件夹

scripts文件夹

troubleshooting文件夹

working文件夹

手动下载zip · 165.9 kB

AGENTS.mdtext/markdown

请选择文件