使用说明

核心用法

Cluster Agent Swarm 是一个由 7 个专业智能体组成的多代理协调系统，专为 Kubernetes 和 OpenShift 平台运维设计。用户通过统一的协调器（Jarvis）发起任务，系统根据任务类型自动路由至相应领域的专业智能体：Atlas 负责集群生命周期和节点管理，Flow 处理 ArgoCD/GitOps 部署，Shield 执行安全审计与合规检查，Pulse 监控指标和告警响应，Cache 管理制品库与 SBOM，Desk 支持开发者自助服务。

安装后需先执行 setup-session.sh 建立环境上下文，支持 dev/qa/staging/prod 四级环境。各智能体按 5-15 分钟间隔心跳唤醒，通过 @mentions 机制协作通信。所有操作记录在 WORKING.md、LOGS.md 和 MEMORY.md 中形成完整审计链。

显著优点

领域专业化：每个智能体有明确定义的 SOUL（身份、职责边界、通信风格），避免通用型 AI 的模糊性
最小权限设计：凭证采用模块化配置，仅需为实际使用的功能（EKS/AKS/ArgoCD/Vault）提供对应凭据
生产级安全控制：声称所有生产环境修改需人工审批，配备 RBAC 审计、CVE 扫描、策略验证等安全能力
多云平台支持：原生兼容 OpenShift、EKS、AKS、GKE、ROSA、ARO 六大主流平台
完整可观测性：集成 Prometheus/Grafana、Loki/Elasticsearch，支持 SLO 追踪和事件响应协调

潜在缺点与局限性

结构性风险：

人工审批是流程声明而非技术强制，实际安全依赖底层平台是否配置审批门禁
第三方脚本执行机制（npx skills add 从 GitHub 拉取并执行 bash 脚本）存在供应链攻击面
智能体维护的持久化状态文件（WORKING.md 等）若获写权限，可能扩大误操作的爆炸半径

运营约束：

破坏性操作（delete/cleanup/promote 类脚本）需人工逐行审查，无法完全自动化
生产环境使用前必须在非生产环境完成完整沙盒测试
部分脚本可能触发外部工具下载（syft、cosign、trivy），需管控网络出口

适合人群

管理多集群 Kubernetes 平台的中大型运维团队
需要标准化 GitOps 工作流（ArgoCD/Flux）的组织
有合规审计需求（RBAC 审查、CVE 追踪、SBOM 生成）的企业
已具备基础平台工程能力、能配置审批门禁和离线工具链的技术团队

常规风险

| 风险类型 | 具体表现 | 缓释建议 |

|---------|---------|---------|

| 供应链风险 | 脚本从第三方 GitHub 仓库动态拉取 | 固定到特定 tag/commit，维护离线副本 |

| 权限升级 | 误配置 cloud 凭据导致跨项目/订阅访问 | 使用命名空间级服务账户，禁用 cluster-admin |

| 持久化滥用 | 状态文件被恶意写入 | 限制仓库写权限，定期审计提交记录 |

| 审批绕过 | 依赖智能体自声明而非平台强制 | 在 CI/CD 或 admission webhook 中实现技术卡点 |

kubernetes openshift multi-agent gitops argocd platform-engineering observability security-compliance devops

Kubernetes Agent Swarm 内容

暂无文件树

手动下载zip · 167.0 kB

contentapplication/octet-stream

请选择文件