sre - 生产故障排查与应急响应专家

使用说明

该Skill是专为站点可靠性工程（SRE）场景设计的专家级辅助工具，旨在帮助工程师高效处理生产环境故障、性能问题及重大事故（SEV）。其核心功能覆盖事件全生命周期管理，包括实时事件响应、系统故障排查、深度根因分析（RCA）、事后复盘报告（Post-Mortem）撰写以及标准化运行手册（Runbook）制定。

核心用法上，该Skill依托Claude Opus模型强大的分析能力，通过Read、Bash、Grep三类工具的组合，实现对系统日志、配置文件和实时诊断命令的综合分析。特别值得注意的是其针对大型报告生成的"分块处理"机制：当生成超过1000行的综合事故报告时，Skill会建议将内容逻辑拆分为"事件分拣→根因分析→紧急缓解→长期预防→事后复盘"等阶段，避免系统过载，确保输出稳定性。

显著优点体现在三个方面：首先，采用fork上下文模式，允许长时间运行的分析任务在独立线程中执行，不阻塞主会话；其次，权限申请极为克制且精准，仅申请与SRE工作流强相关的Read（读取日志）、Bash（执行诊断命令）、Grep（文本检索）三项工具，无冗余权限；最后，作为纯文档型资产，其本身不含任何可执行代码，从根本上杜绝了代码注入风险。

潜在局限性主要包括：来源可信度为T3级（个人开发者账号），虽代码完全开源可审计，但长期维护稳定性和官方背书力度相对较弱；此外，虽然Bash工具对故障诊断不可或缺，但在某些受限环境中可能面临权限限制；对于超大规模分布式系统的复杂故障，仍需要人工结合具体架构上下文进行判断。

目标用户群体明确面向SRE工程师、运维工程师（Ops）、平台工程师以及DevOps实践者。特别适合需要快速编写专业级事故复盘报告、制定标准化应急响应流程的技术团队，也适用于缺乏资深SRE专家的中小企业构建基础的事件响应能力。

使用风险方面，主要需关注Bash工具的执行环境隔离，建议在测试环境或只读模式下先行验证诊断命令；大报告生成时务必遵循分阶段指引，避免单次输出过载；由于涉及生产环境诊断，使用时需确保符合企业数据安全规范，避免将敏感日志传输至外部模型。总体而言，在遵循安全使用指南的前提下，该Skill是提升运维效率的可靠助手。

devops operations automation backend productivity testing

sre 内容

手动下载zip · 948 B

SKILL.mdtext/markdown

请选择文件