核心用法
本 Skill 定位为 AWS 云生产环境的实战规则手册,提供经过验证的部署、监控与管理模式。内容按五大维度组织:
成本陷阱:直击 AWS 最易产生隐性收费的环节——NAT Gateway 按流量计费、EBS 快照自动累积、CloudWatch Logs 永久保留、跨区域数据传输双向收费、停机 EC2 仍计费的关联资源。
安全规则:厘清 IAM 策略评估逻辑(显式 Deny 优先)、Security Groups 与 NACLs 的状态差异、S3 权限继承机制,以及预签名 URL 的权限绑定风险。
性能优化:gp2 EBS 突发信用耗尽问题、Lambda 连接池管理(RDS Proxy)、ALB 健康检查并发计算、DynamoDB 预扩容策略、CloudFront 零 TTL 实际仍缓存的陷阱。
监控体系:CloudWatch 数据保留层级、Lambda 冷启动指标拆分(InitDuration)、CloudTrail 数据事件需手动启用、ALB 5xx 错误来源区分。
基础设施即代码:CloudFormation 替换策略与更新策略的差异、Terraform 状态锁表需开启 PITR、Auto Scaling 冷却期与目标追踪策略的叠加效应、AMI ID 硬编码规避方案(SSM 参数存储)。
显著优点
- 实战导向:每条规则均对应真实生产故障场景,非文档复述
- 成本敏感度:主动识别计费陷阱,具备直接财务价值
- 跨工具覆盖:涵盖控制台、CLI、CloudFormation、Terraform 等多工具链
- 可验证性:提供具体命令(如
simulate-principal-policy、put-retention-policy)
潜在局限
- 规则密度高,缺乏渐进式学习路径,新手易产生认知负荷
- 未提供自动化脚本或 Terraform/CloudFormation 模板示例
- 部分建议(如"pre-warm capacity")需配合具体业务场景判断时机
- 未覆盖最新服务(如 Graviton3、Serverless VPC Endpoint 等 2024 新特性)
适合人群
- 已有 AWS 基础、负责生产环境运维的 SRE / DevOps 工程师
- 需要快速审计现有架构合规性的技术负责人
- 面临意外账单、需系统性成本优化的 FinOps 团队
常规风险
- 过度优化风险:按规则关闭所有默认出站流量可能中断合法依赖(如补丁更新)
- 状态锁依赖:Terraform 建议中 PITR 开启为必需项,若忽略可能导致并发写入破坏状态
- 指标误读:CloudWatch 1 分钟数据 15 天过期,基于此的长期趋势分析会失真
- 权限测试盲区:
simulate-principal-policy不覆盖资源策略边界条件,仍需人工审计
---
评估基于 Skill 文档内原始规则陈述,未执行动态环境验证