Data Anomaly Detector

建筑数据异常智能检测

建筑数据异常检测工具,基于IQR/Z-Score等统计方法识别成本超支、进度偏差和生产率异常,纯本地处理无网络风险

收藏
15.7k
安装
3.7k
版本
2.1.0
CLS 安全性认证2026-05-12
点击查看完整报告 >

使用说明

核心用法

Data Anomaly Detector 是一款面向建筑行业的数据质量监控工具,通过统计学和机器学习方法自动识别项目数据中的异常模式。用户加载 Excel/CSV 数据后,配置检测参数(成本列、日期列、关键字段等),即可执行全量异常扫描。核心检测模块包括:成本异常(基于IQR四分位距和分组Z-Score识别统计离群值)、进度异常(检测负工期、超长任务、零工期非里程碑)、生产率异常(Modified Z-Score识别效率异常)、时序异常(滚动窗口趋势偏差)、重复记录检测、序列断号检测。

显著优点

1. 行业定制化:内置建筑专业阈值(混凝土$200-800/立方码、钢材$1500-4000/吨、管理费率5-25%等),无需用户自行设定基准
2. 多维度检测:覆盖成本、进度、生产率、数据质量四大业务场景,支持单次批量扫描

3. 统计方法成熟:采用IQR、Z-Score、Modified Z-Score等经典算法,结果可解释性强

4. 风险分级明确:Critical/High/Medium/Low四级 severity,自动推荐处置动作

5. 完全离线运行:零网络依赖,敏感项目数据不出本地

潜在缺点与局限性

1. 阈值刚性:内置COST_THRESHOLDS和SCHEDULE_THRESHOLDS基于北美市场,海外或特殊项目可能误报/漏报
2. 无自适应学习:无法根据历史数据自动优化阈值,需人工调整config

3. 时序检测简单:仅支持固定窗口滚动平均,无ARIMA/LSTM等高级时序模型

4. 大表性能未验证:代码未针对百万级以上记录做向量化优化或分块处理

5. 输出格式单一:仅支持Markdown报告,无JSON/API格式便于系统集成

适合人群

  • 建筑公司成本控制部门:快速审核月度成本报表
  • 项目计划工程师:检查P6/MS Project导出数据的逻辑错误
  • 审计与合规团队:识别潜在的估算错误或数据造假迹象
  • 小型开发商:无预算购买Primavera P6完整模块时的轻量替代

常规风险

  • 输入数据质量:GIGO原则,脏数据(混合单位、错误日期格式)会导致检测失效
  • 阈值误配风险:国际项目或通胀极端时期,固定阈值可能产生大量假阳性
  • 统计方法局限:IQR对长尾分布敏感,Modified Z-Score依赖MAD稳健性,极端异常值可能污染中位数估计
  • 业务误判:检测出的统计异常未必代表业务问题(如紧急抢工导致的高生产率),需人工复核
  • 隐私合规:虽然工具本身不上传数据,但用户导出的Markdown报告可能通过邮件/云盘泄露敏感项目信息

安全解读

核心用法

Data Anomaly Detector for Construction 是一款面向建筑工程领域的专业数据质量检测工具,通过Python代码示例形式提供完整的异常检测能力。核心功能涵盖六大检测维度:成本异常(基于IQR四分位距和Z-Score统计方法)、进度异常(识别负工期、超长工期等逻辑错误)、生产效率异常(采用基于MAD的改进Z-Score算法处理偏态分布)、时间序列异常(滚动窗口Z-Score检测趋势偏离)、重复数据检测及序列缺失检测。

使用方法为:初始化 ConstructionAnomalyDetector 类,配置检测参数(包括数据源名称、成本字段、分组字段、关键字段等),调用 run_full_detection() 执行全量检测,最终通过 generate_report() 生成Markdown格式的结构化报告。报告按严重程度分级(Critical/High/Medium/Low),并提供具体修复建议。

显著优点

行业深度定制:内置建筑行业专用阈值(混凝土$200-800/CY、钢材$1500-4000/吨、人工$25-150/小时等),无需用户自行设定经验参数。算法鲁棒性强:针对不同数据分布特征选用差异化算法——IQR法适用于成本数据的离群检测,Modified Z-Score基于中位数绝对偏差处理偏态的生产效率数据,Rolling Z-Score识别时间序列趋势偏离。检测维度全面:覆盖数值异常、逻辑错误、时序断裂、重复记录、序列缺失等完整数据质量问题谱系。输出 actionable:每个异常附带置信度、预期范围、修复建议,支持 Critical 级别优先处理机制。纯本地执行:无网络依赖,数据不外发,适合敏感项目数据场景。

潜在缺点与局限性

非开箱即用:需用户具备Python编程能力和pandas数据处理经验,Quick Start示例对非技术背景的项目管理人员门槛较高。无可视化界面:输出为文本报告,缺乏交互式图表展示异常分布和数据探查能力。阈值静态固化:建筑行业阈值虽专业但固定,难以自动适应不同地区、不同时期的市场价差(如2021年钢材价格暴涨场景)。依赖版本未锁定:安装指令未指定pandas/numpy/scipy版本,存在未来API变更导致兼容性风险。无实时流式检测:仅支持批量离线检测,无法嵌入ETL管道实现持续监控。缺失机器学习扩展:描述中提及ML方法但实际代码仅实现统计方法,对复杂模式识别能力有限。

适合人群

建筑数据分析师:需要将原始项目数据(成本、进度、产值)转化为质量报告的专业人员。项目控制(Project Control)工程师:负责识别项目执行过程中的数据异常和风险信号。施工企业信息化部门:搭建内部数据治理工具链的技术团队。审计与合规岗位:需要批量检测历史数据质量、识别潜在数据篡改或录入错误的审计人员。不适合:完全无编程背景且期望GUI操作的项目经理;需要实时流处理的大规模物联网场景。

常规风险

误报风险:统计方法可能将合理的特殊项目(如超高层、特殊工艺)标记为异常,需人工复核避免误删。阈值僵化风险:行业通用阈值可能不适用于特定合同模式(如EPC总价包干项目成本结构差异)。数据隐私:虽无网络外发,但代码在本地执行时仍需确保运行环境安全,避免恶意修改检测逻辑。版本兼容性:依赖库升级可能导致代码失效,建议锁定依赖版本后使用。

Data Anomaly Detector 内容

手动下载zip · 6.5 kB
claw.jsonapplication/json
请选择文件