data-anomaly-detector

🔍 施工成本进度风险预警系统

基于IQR、Z-Score等统计方法的专业建筑数据异常检测工具,自动识别成本超支、进度偏差与数据质量问题,防范项目风险。

收藏
6.6k
安装
2.1k
版本
v2.1.0
CLS 安全性认证2026-05-13
点击查看完整报告 >

使用说明

Data Anomaly Detector是一款专为建筑行业设计的专业数据质量检测工具,通过统计学方法与建筑行业基准相结合,帮助项目团队自动识别成本、进度、生产率等关键业务数据中的异常与离群值,预防因数据错误导致的项目延期和成本失控。

核心用法上,该工具提供开箱即用的异常检测能力,支持六种检测类型:基于IQR和Z-Score的成本异常检测(包括负值检查与分组统计)、进度逻辑验证(识别负持续时间、超长任务、零持续时间非里程碑)、基于改进Z-Score(Modified Z-Score)的生产率异常分析(适用于偏态分布)、时间序列趋势偏差检测(滚动窗口Z-Score)、重复记录识别以及发票/采购单序列号缺口追踪。用户通过配置字典指定数据源、检测列和业务规则,即可运行全面的异常扫描,生成包含严重级别分类(Critical/High/Medium/Low)的结构化Markdown报告。

显著优点体现在其专业性与工程化设计上。首先,内置建筑行业特定阈值(如混凝土单价200-800美元/立方码、管理费5-25%等),避免通用工具的行业适配难题。其次,采用多种统计方法组合(IQR适用于稳健 outliers 检测、标准Z-Score、改进Z-Score针对偏态数据),显著提升检测准确性。再者,详细的异常分级与可操作建议(如"更正数据录入错误"或"调查高生产率原因")让业务人员能快速响应。最后,纯Python实现,依赖仅pandas/numpy/scipy,易于集成到现有数据管道或Jupyter Notebook工作流。

潜在缺点包括:对数据质量有一定依赖,缺乏历史基准的新项目可能产生较多误报;统计方法假设数据分布特性,对极端非正态分布数据效果可能受限;当前实现主要针对结构化表格数据,对非结构化文档或图像数据无能为力;且异常检测规则相对固定,复杂业务场景需手动调整阈值,无法自动学习项目特定的正常模式。

适合目标群体主要为建筑行业的数据分析师、成本控制经理、项目进度管理人员、审计合规专员,以及负责ERP数据质量的企业IT团队。特别适合处理历史项目数据审查、月度成本报告验证、进度基线比对、供应商发票审核等场景,对大型EPC总包商和地产开发商的数据治理尤为实用。

使用风险方面,虽经安全审计确认无恶意代码,但用户需注意:输入文件安全性(避免处理来源不明的Excel/CSV文件可能包含的恶意宏或注入内容);统计误报风险(算法标记的异常需人工业务复核确认,避免误删正确数据);阈值配置风险(默认建筑行业阈值基于北美市场,需根据具体地区、项目类型调整,否则可能漏检或过度报警);以及性能考量(超大型数据集上的滚动窗口计算和分组统计可能占用较多内存,建议对百万级以上记录进行预处理采样)。

安全解读

核心功能

Data Anomaly Detector 是一款面向建筑工程领域的专业数据质量与风险检测工具,采用统计学与机器学习混合方法识别数据异常。核心能力覆盖五大检测维度:

成本异常检测:基于 IQR(四分位距)方法识别统计离群值,支持分组 Z-Score 分析检测特定成本科目的异常波动,同时内置业务规则校验(如负成本识别)。内置混凝土、钢材、人工等常见建筑材料的行业阈值参考。

进度异常检测:自动识别时间逻辑错误(结束日期早于开始日期)、超长期任务(超过365天)、以及非里程碑任务的零工期问题。

生产力异常分析:采用改进型 Z-Score(基于中位数绝对偏差 MAD)处理偏态分布数据,识别过高/过低生产效率,适用于工程量与工时数据的交叉分析。

时序趋势偏离:通过滚动窗口均值与标准差检测每日成本、进度等时间序列数据的趋势突变。

数据质量审计:支持重复记录检测(基于复合主键)和序列号断号检测(如发票号、采购单号的连续性检查)。

显著优势

  • 领域针对性强:预置建筑行业专用阈值和检测规则,非通用型工具
  • 多算法融合:IQR、Z-Score、Modified Z-Score、滚动统计等方法组合使用,降低单一方法的漏检率
  • 可解释性输出:每个异常标注检测方法、置信度、建议操作及预期合理区间
  • 零外部依赖:纯本地计算,无网络传输,适合敏感商业数据场景
  • 结构化报告:自动生成 Markdown 格式分级报告,支持按严重紧急程度筛选

局限性与注意事项

  • 阈值静态化:行业阈值(如混凝土 200-800 美元/立方码)为硬编码,未考虑地区价格差异和通胀因素,需用户根据实际项目调整
  • 无自适应学习:无法基于历史项目数据自动优化检测参数,每次需手动配置
  • 中文支持有限:报告输出为英文,字段命名建议保持英文以确保兼容性
  • 大数据集性能:未实现并行计算或采样优化,超百万行数据可能出现性能瓶颈
  • 缺乏根因分析:仅能定位异常位置,无法自动诊断成因(如区分数据录入错误与真实业务事件)

适用人群

  • 成本工程师:快速审计投标报价、变更订单中的异常条目
  • 进度控制经理:批量检查 Primavera P6 或 MS Project 导出的进度数据逻辑一致性
  • 数据治理团队:建立项目数据质量门禁,防止脏数据进入 BI 系统
  • 审计与合规人员:识别潜在的重复付款、跳号发票等财务风险信号

风险提示

  • 误报风险:统计异常不等于业务异常,高置信度检出仍需人工复核
  • 阈值误配:未根据项目所在地和年份调整的默认阈值可能导致大量误报或漏报
  • 数据隐私:虽无网络传输,但处理分包商报价等敏感数据时仍需符合企业数据分级管控要求
  • 版本锁定:依赖 pandas/numpy/scipy 特定版本行为,升级依赖库前需充分测试

data-anomaly-detector 内容

手动下载zip · 5.2 kB
SKILL.mdtext/markdown
请选择文件