使用说明

核心用法

Senior ML Engineer 技能定位于生产化机器学习工程，而非模型研究或初始训练阶段。它提供端到端的 ML 生产化路径：

模型部署工作流：从模型导出（ONNX/TorchScript/SavedModel）、Docker 容器化、分级部署（staging → canary 5% → 全量），到明确的验收指标（p95 延迟 < 100ms、错误率 < 0.1%）。同时对比 FastAPI、Triton、Ray Serve 等 serving 方案的性能特征，帮助根据延迟与吞吐量需求选型。

MLOps 管道搭建：整合特征存储（Feast/Tecton）、实验追踪（MLflow/W&B）、模型注册、A/B 测试与自动化重训练触发器（定时/性能下降/数据漂移/新数据量），形成闭环迭代体系。

LLM 生产集成：强调供应商抽象层、指数退避重试、降级策略、令牌计数与成本追踪，以及结构化输出验证。提供 GPT-4/Claude 3 等主流模型的成本对照表，便于预算规划。

RAG 系统实施：覆盖向量数据库选型（Pinecone/Qdrant/Weaviate/pgvector）、嵌入模型权衡、多种分块策略（固定/语义/递归），以及重排序优化，最终验证指标为"响应引用检索上下文、无幻觉"。

监控与漂移检测：基于 Kolmogorov-Smirnov 检验的漂移检测、PSI 指标、多层级告警阈值（warning/critical），确保在用户感知退化前触发干预。

显著优点

1. 生产导向的完整性：不同于零散代码片段，本技能提供从代码模板（Dockerfile、Feast 配置、tenacity 重试装饰器）到运维指标（p95/p99 延迟、PSI 阈值）的全链路覆盖。
2. 成本敏感设计：LLM 章节详细列出各供应商输入/输出 token 单价，RAG 章节对比托管与自托管向量数据库，便于在质量与成本间做数据驱动决策。
3. 风险前置的验证点：每个工作流末尾设置明确的 Validation 里程碑（如"响应正确解析、成本在预算内"），降低生产事故概率。
4. 技术栈中立性：同时覆盖 PyTorch/TensorFlow 生态，以及 MLflow/Kubeflow、Pinecone/Qdrant 等多种工具组合，避免供应商锁定。

潜在局限

基础设施假设：预设 Kubernetes/Docker 环境就绪，对 Serverless（AWS Lambda、Cloud Run）或边缘部署场景覆盖不足。
合规与治理空白：未涉及 GDPR/数据隐私影响评估、模型可解释性审计、公平性（fairness）检测等企业级合规议题。
深度调优省略：如 Triton 的 dynamic batching 细节、GPU 显存优化、大规模分布式训练的 checkpoint 策略等高级主题仅点到为止。

适合人群

需将 Jupyter notebook 模型转为生产服务的 ML 工程师
搭建内部 AI 平台的平台工程/Infra 团队
首次在生产环境集成 LLM/RAG 的全栈开发者
希望建立 MLOps 基线规范的中小型技术团队技术负责人

常规风险

1. 漂移检测滞后：统计检验（KS/PSI）基于历史分布假设，概念漂移（concept drift）或对抗性输入可能逃脱检测。
2. 成本失控：LLM 章节的预算追踪需配合实时计费 API 使用，纯估算难以防止流量突增导致的账单冲击。
3. 分块策略误配：RAG 的 chunking 策略高度依赖文档结构，固定分块在复杂格式（表格、代码、多栏 PDF）上易丢失语义。
4. 重试风暴：指数退避虽缓解瞬时故障，若下游 LLM 服务持续不可用，级联重试可能放大系统负载。

mlops model-deployment llm-integration rag feature-store model-monitoring drift-detection docker kubernetes production-ml

Senior Ml Engineer 内容

references文件夹

scripts文件夹

手动下载zip · 17.5 kB

llm_integration_guide.mdtext/markdown

请选择文件