Name: 七智能体协同运维你的K8s平台
Author: kcns008

使用说明

核心功能

Cluster Agent Swarm 是一个多智能体协调的 Kubernetes/OpenShift 平台运维框架，包含7个专业化智能体：Orchestrator（Jarvis，任务路由）、Cluster Ops（Atlas，集群生命周期）、GitOps（Flow，ArgoCD/Helm部署）、Security（Shield，RBAC与CVE扫描）、Observability（Pulse，监控告警）、Artifacts（Cache，镜像与SBOM管理）、Developer Experience（Desk，命名空间与开发者支持）。

显著优点

领域专业化：每个智能体有明确的角色边界（SOUL定义），避免通用型AI的上下文混淆
多平台支持：覆盖 OpenShift、EKS、AKS、GKE、ROSA、ARO 等主流发行版
GitOps原生：深度集成 ArgoCD，支持同步波、钩子、多集群 ApplicationSet
安全扫描能力：内置镜像CVE分析、SBOM生成、RBAC审计
心跳调度机制：5-15分钟错开唤醒，平衡响应速度与资源成本
模块化凭证：按需配置 AWS/Azure/GCP/ArgoCD/Vault/GitHub 凭证，遵循最小权限

局限性与风险

第三方代码执行：从 GitHub 拉取并执行 bash 脚本，存在供应链攻击面
无技术级审批强制："生产需人工审批"是程序声明，非技术约束，依赖平台额外加固
持久化状态风险：WORKING.md/LOGS.md/MEMORY.md 的自动提交可能扩大误操作影响范围
脚本破坏性操作：*-cleanup.sh、*-delete.sh、*-promote.sh 可能删除或修改生产资源
外部工具下载：运行时可能拉取 syft、cosign、trivy 等二进制，需验证来源

适用人群

运行中等规模 K8s/OpenShift 集群的 SRE/平台工程团队
已建立 GitOps 工作流（ArgoCD/Flux）的组织
具备供应链安全审计能力的团队（能验证 commit hash、审查脚本）
非适用：无代码审计资源、追求零第三方依赖、或需完全自动化生产审批的环境

常规风险

| 风险类别 | 具体表现 | 缓解要求 |

|---------|---------|---------|

| 供应链 | GitHub 仓库被篡改或劫持 | 必须 pin 到 verified commit hash，禁用 floating URL |

| 权限滥用 | 智能体获得过度集群权限 | 使用 namespace-scoped kubeconfig，禁用 cluster-admin |

| 误删除 | cleanup/delete 脚本意外执行 | 沙箱测试所有脚本，生产启用外部审批闸门 |

| 凭证泄露 | 云凭证/令牌被脚本记录 | 审计脚本日志行为，使用临时令牌而非长期密钥 |

| 持久化污染 | 自动提交的学习文件被投毒 | 限制仓库写入权限，审计 git 历史 |

关键建议：任何生产使用前，必须在隔离环境完整审计 skills/*/scripts/*.sh，并建立独立于智能体声明的技术级审批机制。

安全解读

核心功能

cluster-agent-swarm 是一个面向 Kubernetes/OpenShift 平台的多Agent协同系统，包含7个专业化Agent：

Jarvis (编排器)：任务路由与跨Agent协调
Atlas (集群运维)：集群生命周期、节点管理、升级
Flow (GitOps)：ArgoCD、Helm、Kustomize 部署管理
Shield (安全)：RBAC审计、策略执行、漏洞扫描
Pulse (可观测性)：指标查询、告警响应、事件处理
Cache (制品管理)：镜像仓库、SBOM生成、CVE分析
Desk (开发者体验)：命名空间配置、开发者入职支持

系统采用"心跳唤醒"机制（5-15分钟间隔），通过@mentions实现Agent间通信，支持多平台（EKS/AKS/GKE/ROSA/ARO/OCP）。

显著优点

1. 专业化分工明确：每个Agent拥有独立的SOUL定义和专属领域，避免通用Agent的能力模糊问题
2. 安全文档完善：包含详细的SECURITY.md和OPERATIONAL_RISKS.md，明确禁止curl|bash，提供commit pinning指南
3. 模块化凭证设计：遵循最小权限原则，仅启用所需平台的凭证（AWS/Azure/GCP可选）
4. 完整的审计追踪：通过LOGS.md、INCIDENTS.md、MEMORY.md实现跨会话持久化
5. 代码质量良好：使用set -e错误处理，无危险函数（eval/exec/system），无硬编码密钥

潜在缺点与局限性

1. 供应链安全风险：npx skills add从GitHub远程下载执行代码，需严格使用commit pinning
2. 第三方脚本执行风险：包含38个shell脚本执行K8s集群操作，部分脚本具有破坏性（cleanup/delete类）
3. 来源可信度T3级：个人开发者维护（kcns008），无法通过GitHub API验证仓库元数据
4. 外部二进制依赖：依赖kubectl、oc、helm、trivy等工具，需用户自行安装验证
5. 人工程序控制：声称"生产修改需人工审批"仅为文档声明，非技术强制

适合人群

平台工程团队：需要标准化K8s运维流程的中大型企业
SRE/运维工程师：熟悉kubectl/oc，需要自动化辅助但保留最终决策权
多云Kubernetes用户：管理多个云平台K8s集群（EKS/AKS/GKE/OCP）
安全谨慎的组织：愿意投入时间进行代码审查和沙盒测试

常规风险

| 风险类别 | 具体表现 | 缓解措施 |

|---------|---------|---------|

| 供应链攻击 | 恶意代码通过npx注入 | 必须commit pinning，手动git clone审查 |

| 误操作破坏 | cleanup/delete脚本误执行 | 沙盒测试，限制仓库写权限，禁用prod删除 |

| 凭证泄露 | KUBECONFIG或云凭证暴露 | 使用最小权限SA，避免cluster-admin，审计日志 |

| 外部工具漏洞 | trivy/syft等扫描工具CVE | 从官方渠道安装，定期更新 |

| Agent过度授权 | 获得超出需求的集群权限 | 按Agent功能隔离RBAC，禁用不需要的Agent |

关键建议：生产环境使用前必须完成5步验证流程（git clone → checkout → git show → verify-commit → 脚本审查），优先在隔离环境运行不少于72小时。

Kubernetes Agent Swarm 内容

agents文件夹

assets文件夹

incidents文件夹

logs文件夹

memory文件夹

shared文件夹

lib文件夹

skills文件夹

artifacts文件夹

scripts文件夹

cluster-ops文件夹

scripts文件夹

developer-experience文件夹

scripts文件夹

gitops文件夹

scripts文件夹

observability文件夹

scripts文件夹

orchestrator文件夹

scripts文件夹

security文件夹

scripts文件夹

troubleshooting文件夹

working文件夹

手动下载zip · 175.1 kB

AGENTS.mdtext/markdown

请选择文件