Kubernetes Agent Swarm

🐝 七智能体协同运维你的K8s平台

devops-platform榜 #1

7智能体协同的K8s平台运维系统,覆盖部署、安全、监控全生命周期,生产环境需人工审批与代码审计

收藏
15.4k
安装
6.9k
版本
1.0.7
CLS 安全性认证2026-05-17
点击查看完整报告 >

使用说明

核心功能

Cluster Agent Swarm 是一个多智能体协调的 Kubernetes/OpenShift 平台运维框架,包含7个专业化智能体:Orchestrator(Jarvis,任务路由)、Cluster Ops(Atlas,集群生命周期)、GitOps(Flow,ArgoCD/Helm部署)、Security(Shield,RBAC与CVE扫描)、Observability(Pulse,监控告警)、Artifacts(Cache,镜像与SBOM管理)、Developer Experience(Desk,命名空间与开发者支持)。

显著优点

  • 领域专业化:每个智能体有明确的角色边界(SOUL定义),避免通用型AI的上下文混淆
  • 多平台支持:覆盖 OpenShift、EKS、AKS、GKE、ROSA、ARO 等主流发行版
  • GitOps原生:深度集成 ArgoCD,支持同步波、钩子、多集群 ApplicationSet
  • 安全扫描能力:内置镜像CVE分析、SBOM生成、RBAC审计
  • 心跳调度机制:5-15分钟错开唤醒,平衡响应速度与资源成本
  • 模块化凭证:按需配置 AWS/Azure/GCP/ArgoCD/Vault/GitHub 凭证,遵循最小权限

局限性与风险

  • 第三方代码执行:从 GitHub 拉取并执行 bash 脚本,存在供应链攻击面
  • 无技术级审批强制:"生产需人工审批"是程序声明,非技术约束,依赖平台额外加固
  • 持久化状态风险:WORKING.md/LOGS.md/MEMORY.md 的自动提交可能扩大误操作影响范围
  • 脚本破坏性操作*-cleanup.sh*-delete.sh*-promote.sh 可能删除或修改生产资源
  • 外部工具下载:运行时可能拉取 syft、cosign、trivy 等二进制,需验证来源

适用人群

  • 运行中等规模 K8s/OpenShift 集群的 SRE/平台工程团队
  • 已建立 GitOps 工作流(ArgoCD/Flux)的组织
  • 具备供应链安全审计能力的团队(能验证 commit hash、审查脚本)
  • 非适用:无代码审计资源、追求零第三方依赖、或需完全自动化生产审批的环境

常规风险

| 风险类别 | 具体表现 | 缓解要求 |
|---------|---------|---------|
| 供应链 | GitHub 仓库被篡改或劫持 | 必须 pin 到 verified commit hash,禁用 floating URL |
| 权限滥用 | 智能体获得过度集群权限 | 使用 namespace-scoped kubeconfig,禁用 cluster-admin |
| 误删除 | cleanup/delete 脚本意外执行 | 沙箱测试所有脚本,生产启用外部审批闸门 |
| 凭证泄露 | 云凭证/令牌被脚本记录 | 审计脚本日志行为,使用临时令牌而非长期密钥 |
| 持久化污染 | 自动提交的学习文件被投毒 | 限制仓库写入权限,审计 git 历史 |

关键建议:任何生产使用前,必须在隔离环境完整审计 skills/*/scripts/*.sh,并建立独立于智能体声明的技术级审批机制。

安全解读

核心功能

cluster-agent-swarm 是一个面向 Kubernetes/OpenShift 平台的多Agent协同系统,包含7个专业化Agent:

  • Jarvis (编排器):任务路由与跨Agent协调
  • Atlas (集群运维):集群生命周期、节点管理、升级
  • Flow (GitOps):ArgoCD、Helm、Kustomize 部署管理
  • Shield (安全):RBAC审计、策略执行、漏洞扫描
  • Pulse (可观测性):指标查询、告警响应、事件处理
  • Cache (制品管理):镜像仓库、SBOM生成、CVE分析
  • Desk (开发者体验):命名空间配置、开发者入职支持

系统采用"心跳唤醒"机制(5-15分钟间隔),通过@mentions实现Agent间通信,支持多平台(EKS/AKS/GKE/ROSA/ARO/OCP)。

显著优点

1. 专业化分工明确:每个Agent拥有独立的SOUL定义和专属领域,避免通用Agent的能力模糊问题
2. 安全文档完善:包含详细的SECURITY.md和OPERATIONAL_RISKS.md,明确禁止curl|bash,提供commit pinning指南

3. 模块化凭证设计:遵循最小权限原则,仅启用所需平台的凭证(AWS/Azure/GCP可选)

4. 完整的审计追踪:通过LOGS.md、INCIDENTS.md、MEMORY.md实现跨会话持久化

5. 代码质量良好:使用set -e错误处理,无危险函数(eval/exec/system),无硬编码密钥

潜在缺点与局限性

1. 供应链安全风险npx skills add从GitHub远程下载执行代码,需严格使用commit pinning
2. 第三方脚本执行风险:包含38个shell脚本执行K8s集群操作,部分脚本具有破坏性(cleanup/delete类)

3. 来源可信度T3级:个人开发者维护(kcns008),无法通过GitHub API验证仓库元数据

4. 外部二进制依赖:依赖kubectl、oc、helm、trivy等工具,需用户自行安装验证

5. 人工程序控制:声称"生产修改需人工审批"仅为文档声明,非技术强制

适合人群

  • 平台工程团队:需要标准化K8s运维流程的中大型企业
  • SRE/运维工程师:熟悉kubectl/oc,需要自动化辅助但保留最终决策权
  • 多云Kubernetes用户:管理多个云平台K8s集群(EKS/AKS/GKE/OCP)
  • 安全谨慎的组织:愿意投入时间进行代码审查和沙盒测试

常规风险

| 风险类别 | 具体表现 | 缓解措施 |
|---------|---------|---------|
| 供应链攻击 | 恶意代码通过npx注入 | 必须commit pinning,手动git clone审查 |
| 误操作破坏 | cleanup/delete脚本误执行 | 沙盒测试,限制仓库写权限,禁用prod删除 |
| 凭证泄露 | KUBECONFIG或云凭证暴露 | 使用最小权限SA,避免cluster-admin,审计日志 |
| 外部工具漏洞 | trivy/syft等扫描工具CVE | 从官方渠道安装,定期更新 |
| Agent过度授权 | 获得超出需求的集群权限 | 按Agent功能隔离RBAC,禁用不需要的Agent |

关键建议:生产环境使用前必须完成5步验证流程(git clone → checkout → git show → verify-commit → 脚本审查),优先在隔离环境运行不少于72小时。

Kubernetes Agent Swarm 内容

agents文件夹
assets文件夹
incidents文件夹
logs文件夹
memory文件夹
shared文件夹
lib文件夹
skills文件夹
artifacts文件夹
scripts文件夹
cluster-ops文件夹
scripts文件夹
developer-experience文件夹
scripts文件夹
gitops文件夹
scripts文件夹
observability文件夹
scripts文件夹
orchestrator文件夹
scripts文件夹
security文件夹
scripts文件夹
troubleshooting文件夹
working文件夹
手动下载zip · 175.1 kB
AGENTS.mdtext/markdown
请选择文件