sre

🚨 生产故障排查与应急响应专家

🥥70总安装量 15评分人数 11
100% 的用户推荐

基于Claude Opus模型的SRE专家技能,提供生产环境故障诊断、根因分析和事后复盘能力,助力提升系统稳定性。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 纯文档型资产,无可执行脚本,无eval/exec/system等危险代码
  • ✅ 权限申请与SRE功能完全匹配(Read/Bash/Grep),无过度授权
  • ✅ 无数据收集行为,无敏感信息硬编码或传输
  • ⚠️ 申请Bash工具权限,建议在可控环境或隔离环境中使用
  • ⚠️ 来源为个人开发者账号(T3),建议定期审查更新内容

使用说明

该Skill是专为站点可靠性工程(SRE)场景设计的专家级辅助工具,旨在帮助工程师高效处理生产环境故障、性能问题及重大事故(SEV)。其核心功能覆盖事件全生命周期管理,包括实时事件响应、系统故障排查、深度根因分析(RCA)、事后复盘报告(Post-Mortem)撰写以及标准化运行手册(Runbook)制定。

核心用法上,该Skill依托Claude Opus模型强大的分析能力,通过Read、Bash、Grep三类工具的组合,实现对系统日志、配置文件和实时诊断命令的综合分析。特别值得注意的是其针对大型报告生成的"分块处理"机制:当生成超过1000行的综合事故报告时,Skill会建议将内容逻辑拆分为"事件分拣→根因分析→紧急缓解→长期预防→事后复盘"等阶段,避免系统过载,确保输出稳定性。

显著优点体现在三个方面:首先,采用fork上下文模式,允许长时间运行的分析任务在独立线程中执行,不阻塞主会话;其次,权限申请极为克制且精准,仅申请与SRE工作流强相关的Read(读取日志)、Bash(执行诊断命令)、Grep(文本检索)三项工具,无冗余权限;最后,作为纯文档型资产,其本身不含任何可执行代码,从根本上杜绝了代码注入风险。

潜在局限性主要包括:来源可信度为T3级(个人开发者账号),虽代码完全开源可审计,但长期维护稳定性和官方背书力度相对较弱;此外,虽然Bash工具对故障诊断不可或缺,但在某些受限环境中可能面临权限限制;对于超大规模分布式系统的复杂故障,仍需要人工结合具体架构上下文进行判断。

目标用户群体明确面向SRE工程师、运维工程师(Ops)、平台工程师以及DevOps实践者。特别适合需要快速编写专业级事故复盘报告、制定标准化应急响应流程的技术团队,也适用于缺乏资深SRE专家的中小企业构建基础的事件响应能力。

使用风险方面,主要需关注Bash工具的执行环境隔离,建议在测试环境或只读模式下先行验证诊断命令;大报告生成时务必遵循分阶段指引,避免单次输出过载;由于涉及生产环境诊断,使用时需确保符合企业数据安全规范,避免将敏感日志传输至外部模型。总体而言,在遵循安全使用指南的前提下,该Skill是提升运维效率的可靠助手。

sre 内容

手动下载zip · 948 B
SKILL.mdtext/markdown
请选择文件