data-profiler

🏗️ 建筑数据质量智能诊断与ETL规划助手

基于 pandas 的专业建筑数据剖析工具,智能识别数据质量问题和异常模式,为 ETL 规划提供可靠的数据特征分析报告。

收藏
3.8k
安装
1.5k
版本
v2.1.0
CLS 安全性认证2026-05-11
点击查看完整报告 >

使用说明

Data Profiler for Construction 是一款专为建筑行业设计的数据剖析工具,旨在帮助用户在 ETL 流程前全面了解数据特征、质量分布和潜在问题。该工具基于 Python 的 pandas 和 numpy 库构建,通过 ConstructionDataProfiler 类提供系统化的数据画像能力,能够自动识别 CSI 代码、项目 ID、成本字段等建筑行业特定数据模式,并生成包含质量评分的详细报告。

核心用法上,用户只需将 pandas DataFrame 传入 profile_dataframe 方法,即可获得包含列级统计、缺失值分析、异常值检测和模式识别的完整画像。工具支持自动推断建筑专业数据类型(如 MasterFormat 编码、日期格式、货币金额),并能检测重复行、负成本值等数据质量问题。通过 generate_profile_report 方法可导出 Markdown 格式的可读报告,便于团队共享;compare_profiles 功能则支持跨时间数据版本对比,有效监控数据漂移。

显著优点体现在其行业适配性上:内置正则表达式模式库可识别 CSI 编码(如 "03 30 00")、项目编号(如 "PRJ-001")等建筑领域专用格式;质量评分算法综合考虑空值率、异常值和模式一致性,提供 0-100 的量化评估;针对成本字段的特殊检测(如负值识别)直接契合工程造价管理需求。此外,工具完全本地化运行,无需网络连接,保障敏感项目数据隐私。

潜在局限性包括:作为 T3 级社区来源的纯文档型资产,代码仅作演示示例,生产环境需自行完善测试;当前实现基于 pandas 内存计算,处理超大规模数据集(GB 级以上)可能面临性能瓶颈;建筑模式库虽涵盖常见场景,但面对非标准编码体系(如企业自定义 WBS)时需手动扩展正则规则。

该技能适合建筑数据工程师、ETL 开发者和工程造价分析师使用,特别适用于施工项目成本数据清洗、BIM 属性表验证、历史项目数据迁移前的质量评估等场景。对于需要构建企业级数据管道的中大型建筑企业,可作为概念验证(POC)参考实现。

使用风险主要涉及依赖管理:需确保 pandas 和 numpy 版本兼容性,避免数据类型推断差异导致误判;处理敏感工程数据时,虽无网络上传风险,但建议在脱敏环境中运行;代码中文件 I/O 操作(如 Excel 读取、JSON 导出)需注意路径权限和磁盘空间;大数据集剖析可能消耗大量内存,建议分块处理或增加硬件资源。

安全解读

核心用法

Data Profiler 是一款面向建筑行业的数据探查工具,通过 Python 类 ConstructionDataProfiler 提供系统化的数据质量评估能力。核心流程包括:

1. 数据加载:支持 pandas DataFrame 输入,兼容 Excel/CSV 等常见格式
2. 列级分析:自动推断数据类型(CSI编码、项目ID、成本、日期等建筑专用类型),计算空值率、唯一值比例、统计分布

3. 质量评分:基于空值率、异常值、重复数据等维度生成 0-100 质量评分

4. 智能建议:自动识别需优化的数据转换(如货币字符串转数值、日期格式标准化)

5. 报告输出:支持 Markdown 可视化报告、JSON 结构化导出、跨期数据对比

典型调用链:profile_dataframe()generate_profile_report() / profile_to_dict() / compare_profiles()

显著优点

| 维度 | 优势 |
|------|------|
| **领域适配** | 内置 CSI MasterFormat 编码、WBS结构、成本代码等建筑行业专用正则模式 |
| **类型推断** | 通过列名启发式规则(如含"cost"/"amount"推断为成本字段)提升识别准确率 |
| **质量量化** | 统一的质量评分体系,支持跨数据集横向对比和时间序列纵向追踪 |
| **零外部依赖** | 仅依赖 pandas/numpy,无网络调用,满足离线场景和安全审计要求 |
| **可扩展架构** | dataclass 设计的 `ColumnProfile`/`DataProfile` 便于自定义指标扩展 |

潜在局限

1. 性能瓶颈:全量数据扫描对大表(百万级+)可能内存敏感,未实现采样分析模式
2. 模式覆盖有限:建筑专用正则仅覆盖常见场景,特殊编码体系需手动扩展 CONSTRUCTION_PATTERNS

3. 无可视化组件:输出为文本/JSON 格式,需配合 BI 工具或自定义前端实现图形化

4. 异常检测简化:采用 3σ 阈值法识别异常值,对多峰分布或长尾数据可能误报

5. 跨表关联缺失:仅支持单表分析,无外键一致性、表间重复值等关系型质量检查

适合人群

  • 数据工程师:ETL 前数据探查、schema 变更检测、数据血缘追踪
  • 建筑数字化团队:项目成本数据、进度数据的质量基线建立
  • BI 分析师:快速理解陌生数据集的结构特征,指导清洗策略
  • 审计合规人员:生成可存档的数据质量报告,满足 DAMA DMBOK 标准

常规风险

| 风险类型 | 说明 | 缓释措施 |
|----------|------|----------|
| 数据暴露 | 分析过程在本地内存完成,无数据外传 | 确保运行环境可信 |
| 敏感信息识别 | 可能识别出邮箱、电话等 PII 模式(功能设计) | 分析后及时清理中间文件 |
| 依赖漏洞 | pandas/numpy 历史版本可能存在 CVE | 建议定期更新依赖并扫描 |
| 误报异常 | 业务合理的离群值被标记为质量问题 | 结合领域知识人工复核 |

安全认证评分 S级/95分,静态分析与动态行为均无风险点,适合企业内网部署。

data-profiler 内容

手动下载zip · 5.2 kB
SKILL.mdtext/markdown
请选择文件