核心功能定位
该 Skill 定位于生产级数据科学工作流,涵盖实验设计、特征工程、模型训练与评估、因果推断四大核心模块,提供可直接落地的代码模板与统计方法论。
显著优点
方法论完整性:覆盖从实验设计(样本量计算、双比例z检验、Bonferroni校正)到因果推断(双重差分法、平行趋势验证)的完整统计体系,避免常见统计谬误。
工程化意识突出:强制要求 MLflow 实验追踪、交叉验证指标报告(AUC-ROC + AUC-PR)、过拟合检测(overfit_gap > 0.05 预警),契合 MLOps 最佳实践。
防泄漏设计:特征工程模块明确标注"时间特征必须在 train/test 拆分前生成"、"转换器仅在训练集 fit",直击数据科学最常见错误。
多语言支持:Python(NumPy/Pandas/Scikit-learn/XGBoost)、R、SQL 三栈覆盖,适应不同团队技术栈。
潜在局限与风险
模板完整性问题:scripts/ 目录下三个 Python 文件(experiment_designer.py、feature_engineering_pipeline.py、model_evaluation_suite.py)为空白骨架代码,用户可能误以为是可用模块。
统计假设依赖性强:A/B 测试模块假设用户理解随机化单位、业务周期等概念;DiD 模块要求用户自行验证平行趋势前提——缺乏经验者可能误用。
无实时数据连接:所有代码为离线分析模板,不涉及数据库连接、流式数据摄取或特征存储系统集成,生产部署需额外工程工作。
T3 来源风险:维护者为个人开发者 alirezarezvani,无 GitHub 组织背书,长期维护与社区支持存疑。
适合人群
- 具备统计基础、需标准化代码模板的中高级数据科学家
- 正在建立实验文化、需 A/B 测试基础设施的互联网公司
- 需将因果推断方法(DiD)应用于政策/产品效果评估的分析团队
常规风险
- p-hacking 诱导:虽提供 Bonferroni 校正建议,但多指标测试的诱惑仍存
- 因果过度推断:DiD 模块若被用于不满足平行趋势的数据,将产生虚假因果结论
- 模型上线风险:评估模块强调概率校准与 SHAP 验证,但无模型监控/漂移检测代码