使用说明

核心用法

Kubernetes Agent Swarm 是一个纯指令驱动的多智能体系统，通过7个专业化Agent协同完成K8s/OpenShift平台的全栈运维。用户通过clawhub install kubernetes安装后，以自然语言与Agent交互，Agent将markdown指令翻译为本地CLI命令（kubectl/oc/helm等）执行。

典型工作流：
1. 建立集群上下文：kubectl cluster-info验证权限
2. 发起任务：如"部署payment-service v3.2到staging"
3. Agent协调：@Flow 执行ArgoCD同步 → @Shield 审核RBAC → @Pulse 监控指标
4. 关键操作触发人机确认，全过程写入logs/LOGS.md审计

智能体分工：

Jarvis（编排器）：任务路由、跨Agent协调
Atlas（集群运维）：节点扩缩容、升级、生命周期
Flow（GitOps）：ArgoCD/Flux/Helm持续交付
Shield（安全）：RBAC、网络策略、密钥轮换、CVE扫描
Pulse（可观测）：Prometheus/Grafana指标、日志分析、告警响应
Cache（制品）：镜像仓库、SBOM、晋级策略
Desk（开发者体验）：命名空间申请、新人 onboarding

显著优点

1. 角色隔离降低风险：每个Agent有明确定义的安全边界，Shield无法执行集群升级，Atlas无法修改RBAC，避免权限过度集中
2. 企业级多平台支持：原生兼容OpenShift、EKS、AKS、GKE、ROSA、ARO等主流发行版
3. 人机协同设计：删除生产资源、修改集群策略、直接改密等高危操作强制人工审批
4. 文件优先持久化：memory/MEMORY.md保存长期记忆，working/WORKING.md记录会话进度，支持跨会话连续性
5. 无脚本依赖：纯markdown指令集，无需维护可执行文件，降低供应链攻击面

潜在缺点与局限性

环境依赖严格：必须预装kubectl，OpenShift场景需oc CLI，云厂商托管集群还需aws/az/gcloud等工具链
心跳调度固定：/5分钟的快速响应仅覆盖Atlas/Pulse/Shield，Desk/Orchestrator的/15分钟周期可能延误紧急工单
网络隔离场景受限：若运行环境无法直连集群API Server（如纯内网+堡垒机），需额外配置kubeconfig跳转
无内置状态回滚：Agent可检测问题并尝试修复，但复杂故障仍需人工介入决策
多Agent并发风险：@mention机制依赖人工协调，高并发场景下可能出现指令冲突

适合人群

平台工程师/SRE：管理多集群、多租户K8s平台，需标准化运维流程
DevOps团队：实施GitOps工作流，寻求ArgoCD/Flux的智能化封装
安全合规人员：需要RBAC审计、密钥轮换、CVE追踪的自动化支撑
中大型组织：已具备kubectl访问权限，希望降低K8s学习曲线的新手开发者

常规风险

| 风险类型 | 说明 | 缓解措施 |

|---------|------|---------|

| 凭证泄露 | KUBECONFIG挂载至Agent环境 | 使用短-lived token+定期轮换，禁止绑定cluster-admin |

| 指令注入 | 自然语言解析错误导致非预期命令 | 所有生成命令经人工确认窗口，禁止管道符/反引号 |

| 审计盲区 | LOGS.md依赖本地文件系统 | 配置外部SIEM转发，防止日志篡改 |

| 权限漂移 | Agent长期运行累积过度授权 | 按最小权限为每个Agent单独配置ServiceAccount |

| 单点故障 | Orchestrator(Jarvis)宕机导致调度失效 | 建议独立部署状态化副本，或降级为人工分单 |

安全解读

Kubernetes Agent Swarm 综合评估

核心用法

该Skill采用纯指令型架构，通过7个专业化Agent构成协调式智能体群（Swarm），覆盖Kubernetes/OpenShift全生命周期运维：

| Agent | 核心职能 | 典型场景 |

|-------|---------|---------|

| **Jarvis (Orchestrator)** | 任务路由与协调 | 跨Agent工作流编排、每日站会 |

| **Atlas (Cluster Ops)** | 集群生命周期管理 | 节点扩缩容、版本升级、故障排查 |

| **Flow (GitOps)** | 持续交付 | ArgoCD/Flux应用同步、Helm部署 |

| **Shield (Security)** | 安全治理 | RBAC审计、策略扫描、密钥轮换 |

| **Pulse (Observability)** | 可观测性 | 指标查询、日志分析、告警响应 |

| **Cache (Artifacts)** | 制品管理 | 镜像仓库、SBOM生成、CVE追踪 |

| **Desk (DevEx)** | 开发者体验 | 命名空间开通、权限申请、技术支撑 |

关键特性：

Instruction-Only设计：零可执行代码，Agent通过Markdown指令指导用户使用本地CLI（kubectl/oc/helm）执行操作
Agent间@通信：支持@Shield @Pulse等跨Agent协作与任务委派
分级心跳机制：5-15分钟间隔差异化巡检（P1告警→5分钟，日常部署→10分钟）

显著优点

1. 顶级安全架构：S+认证，100分扫描，零漏洞、零依赖、零网络请求
2. 多平台覆盖：支持OpenShift、EKS、AKS、GKE、ROSA、ARO等6大主流平台
3. Human-in-the-Loop：生产删除、策略变更、集群升级等高危操作强制人工审批
4. 可审计性：完整日志追踪（logs/LOGS.md）、会话记忆持久化（memory/MEMORY.md）
5. 弹性部署：支持完整Swarm安装或单Agent按需加载

潜在局限

| 维度 | 限制说明 |

|------|---------|

| **执行依赖** | 需预装kubectl/oc等CLI工具，仅提供指令不直接执行命令 |

| **网络隔离** | 无法自动调用云厂商API，需配合aws/az/gcloud等本地CLI |

| **响应延迟** | 纯文本指令交互，复杂故障排查需多轮对话 |

| **权限边界** | 受限于用户本地KUBECONFIG权限，无法突破集群RBAC |

适合人群

平台工程师/SRE：标准化K8s运维流程，降低重复操作负担
DevOps团队：GitOps实践落地，ArgoCD/Helm部署辅助
安全合规团队：RBAC审计、CVE追踪、策略基线检查
云原生初学者：通过结构化指令学习kubectl最佳实践

常规风险

1. 误操作传导：Agent指令依赖用户本地执行，用户误粘贴命令可能导致生产事故（建议开启--dry-run预览）
2. 权限配置不当：若KUBECONFIG权限过高，Agent可能建议越权操作
3. 版本漂移：本地CLI版本与集群版本不匹配可能导致指令失效
4. 会话状态丢失：虽文件持久化，但长时中断后Agent上下文需重新对齐

---

> 认证背书：CLS-Certify v2.1.0 T-HEAVY全量扫描 | 0漏洞 | MIT开源许可

kubernetes openshift multi-agent gitops sre platform-engineering orchestration devops

Kubernetes Agent Swarm 内容

agents文件夹

incidents文件夹

logs文件夹

memory文件夹

raw文件夹

skills文件夹

artifacts文件夹

cluster-ops文件夹

developer-experience文件夹

gitops文件夹

observability文件夹

orchestrator文件夹

security文件夹

troubleshooting文件夹

wiki文件夹

working文件夹

手动下载zip · 70.5 kB

AGENTS.mdtext/markdown

请选择文件