Name: 生产级数据科学实验与建模指南
Author: alirezarezvani

使用说明

核心功能定位

该 Skill 定位于生产级数据科学工作流，涵盖实验设计、特征工程、模型训练与评估、因果推断四大核心模块，提供可直接落地的代码模板与统计方法论。

显著优点

方法论完整性：覆盖从实验设计（样本量计算、双比例z检验、Bonferroni校正）到因果推断（双重差分法、平行趋势验证）的完整统计体系，避免常见统计谬误。

工程化意识突出：强制要求 MLflow 实验追踪、交叉验证指标报告（AUC-ROC + AUC-PR）、过拟合检测（overfit_gap > 0.05 预警），契合 MLOps 最佳实践。

防泄漏设计：特征工程模块明确标注"时间特征必须在 train/test 拆分前生成"、"转换器仅在训练集 fit"，直击数据科学最常见错误。

多语言支持：Python（NumPy/Pandas/Scikit-learn/XGBoost）、R、SQL 三栈覆盖，适应不同团队技术栈。

潜在局限与风险

模板完整性问题：scripts/ 目录下三个 Python 文件（experiment_designer.py、feature_engineering_pipeline.py、model_evaluation_suite.py）为空白骨架代码，用户可能误以为是可用模块。

统计假设依赖性强：A/B 测试模块假设用户理解随机化单位、业务周期等概念；DiD 模块要求用户自行验证平行趋势前提——缺乏经验者可能误用。

无实时数据连接：所有代码为离线分析模板，不涉及数据库连接、流式数据摄取或特征存储系统集成，生产部署需额外工程工作。

T3 来源风险：维护者为个人开发者 alirezarezvani，无 GitHub 组织背书，长期维护与社区支持存疑。

适合人群

具备统计基础、需标准化代码模板的中高级数据科学家
正在建立实验文化、需 A/B 测试基础设施的互联网公司
需将因果推断方法（DiD）应用于政策/产品效果评估的分析团队

常规风险

p-hacking 诱导：虽提供 Bonferroni 校正建议，但多指标测试的诱惑仍存
因果过度推断：DiD 模块若被用于不满足平行趋势的数据，将产生虚假因果结论
模型上线风险：评估模块强调概率校准与 SHAP 验证，但无模型监控/漂移检测代码

安全解读

核心定位

该 Skill 定位为生产级数据科学工作流引擎，专为需要严谨统计方法支撑的 AI/ML 团队设计。其核心价值在于将学术级的因果推断与实验设计方法论，转化为可落地的 Python/R/SQL 代码实现。

核心用法

覆盖四大数据科学核心工作流：

| 工作流 | 关键技术 | 典型场景 |

|--------|----------|----------|

| **A/B 测试设计** | 两比例z检验、Bonferroni校正、样本量计算 | 产品功能上线效果验证 |

| **特征工程管道** | ColumnTransformer、循环编码、时序特征 | 结构化表格数据预处理 |

| **模型评估选择** | 分层K折交叉验证、AUC-ROC/AUC-PR双指标、SHAP解释 | 分类/回归模型迭代优化 |

| **因果推断** | 双重差分法(DiD)、HC3稳健标准误、平行趋势检验 | 观察性数据的因果效应估计 |

所有代码块均附带执行清单（Checklist），强制要求最佳实践——如"训练前预注册指标""全周期运行实验""拟合前划分训练集"等，显著降低方法论误用风险。

显著优点

1. 方法论权威性：直接实现经典统计检验（two-proportion z-test）与计量经济学方法（DiD with HC3），非黑盒封装，可追溯可审计
2. 工程完整性：MLflow 实验追踪、SHAP 可解释性、过拟合检测（train-test gap 监控）形成闭环
3. 安全零风险：纯计算逻辑，无网络请求、无敏感信息访问、无动态代码执行
4. 跨语言支持：Python 为主，兼容 R 与 SQL，适配异构数据团队

局限与注意事项

非端到端解决方案：提供的是代码框架与检查清单，需用户自行整合至现有 MLOps 流水线
假设检验前提：A/B 测试与 DiD 方法均要求用户主动验证前提条件（SRM 检查、平行趋势），Skill 本身不自动诊断
性能边界：示例代码未针对超大规模数据（>10M 行）优化，高并发场景需额外工程改造

适合人群

数据科学家/统计分析师：需要快速落地标准实验设计流程
产品经理与策略分析师：理解统计方法论以正确解读实验结果
ML 工程师：构建特征工程管道与模型评估基准
科研人员：可复现的因果分析代码模板

常规风险提示

| 风险类型 | 说明 | 缓解措施 |

|----------|------|----------|

| 方法论误用 | 忽略 checklist 中的前提验证步骤 | 严格遵守每段代码后的检查清单 |

| 数据泄露 | 时序特征生成时机错误 | 确保"Generate lag/rolling features BEFORE the train/test split" |

| 过度自信 | 仅报告 p 值而忽略置信区间 | 使用 `analyze_experiment` 返回的完整结果字典 |

| 多检验问题 | 多指标测试未校正 | 显式应用 Bonferroni 校正 |

该 Skill 是技术债务极低、方法论严谨的数据科学基础设施组件，特别适合已将统计严谨性纳入工程文化的成熟团队。

ab-testing causal-inference feature-engineering machine-learning mlops statistical-modeling xgboost scikit-learn python experiment-design

Senior Data Scientist 内容

references文件夹

scripts文件夹

手动下载zip · 10.2 kB

experiment_design_frameworks.mdtext/markdown

请选择文件