Data quality & reconciliation with exception

🔍 精准对账零丢数,异常全暴露

通过稳定标识符(工资号、驾驶证等)实现数据源自动对账,生成异常报告并强制阻断静默失败,确保每条记录都有明确归属。

收藏
20.7k
安装
4.3k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

该技能专注于数据对账与质量监控,通过层级化的稳定标识符(Pay Number → 驾驶证 → 司机卡 → 资格证)实现多源数据匹配。核心流程包括:

1. 标识符优先级匹配:首选工资号精确连接,未匹配项依次降级至其他证件号码
2. 规范化预处理:统一大小写、去除空格与标点,消除格式差异导致的假性不匹配

3. 异常分类报告:强制输出五类状态——已匹配、A源缺失、B源缺失、字段冲突、重复键值、无效键值

4. 静默失败阻断:设置计数校验门控,异常率超阈值即中断流水线,杜绝"看起来成功实则丢数据"

显著优点

  • 确定性优先:基于稳定ID的精确匹配,避免模糊算法带来的不可解释性
  • 全量可追溯:零记录丢弃策略,每条数据都有明确的归属结论
  • 工程友好:直接输出CSV格式的异常报告模板与匹配规则文档,可嵌入ETL流水线
  • 风险前置:门控机制将数据质量问题暴露在生产阶段,而非下游分析时

潜在局限

  • 依赖稳定标识符:若全量数据缺失关键ID(如临时工未录入工资号),技能效用大幅下降
  • 非模糊匹配:姓名拼写差异、证件号录入错误等需人工介入或额外 fuzzy 流程
  • 单一场景聚焦:专为周期性对账(周/月报)设计,非实时流处理场景
  • 权限假设:默认只读源数据,若需自动修正需用户显式授权

适合人群

数据工程师、合规专员、HR系统管理员——尤其需要处理薪酬系统与合规系统交叉验证、或多系统员工主数据同步的组织。

常规风险

  • 优先级误设:若工资号存在历史重复记录却设为最高优先级,可能导致错误匹配
  • 阈值宽松:异常率容忍度设置过高,可能掩盖系统性数据质量问题
  • 时序忽略:未考虑证件换发导致的号码变更,产生假性"B源缺失"
  • 过度依赖自动化:门控阻断后若缺乏人工复核流程,可能造成业务停摆

安全解读

核心用法

'data-reconciliation-exceptions' 是一个纯声明式的数据质量与对账技能,专为需要周期性匹配多数据源并生成结构化异常报告的场景设计。其核心机制围绕稳定标识符(按优先级依次为:薪资号 Pay Number → 驾驶员卡号 Driver Card → 驾驶证号 Driving Licence → 从业资格证号 DQC)进行确定性匹配,彻底拒绝开放式模糊匹配,从而保证对账结果的可解释性和可审计性。

该技能的工作流程高度结构化和自动化:首先确认数据源与主键优先级,然后对关键列进行标准化处理(如去除空格、统一大小写、清理标点符号),接着验证键的有效性并标记空白或格式错误的标识。在完成数据清洗后,执行严格的精确连接,并对未匹配的记录尝试次级键匹配。最终,所有记录都会被分入明确的异常类别(如 'MISSING_IN_A'、'MISMATCH'、'DUPLICATE_KEY'、'INVALID_KEY' 等),并附带具体的差异原因。其标志性功能是'no silent failure'(无静默失败)检查:通过预设的计数容差、未匹配率阈值和重复记录峰值检测,确保数据流水线在任何异常情况下都能发出明确警报,而不是悄无声息地丢弃问题数据。

显著优点

1. 确定性与可解释性:该技能强制采用确定性匹配规则,在未明确授权的情况下禁用模糊匹配。每条异常记录都有明确的 reason code,杜绝了传统脚本中数据被无声丢弃的风险。
2. 安全的内置机制:默认只读操作,不会自动修改源文件;遇到列映射冲突、主键优先级不明确或预期容差未指定时,会'停止并询问用户',体现了人机协同的安全设计思想。

3. 零依赖与透明执行:作为纯 Markdown 指令集(T-LITE 分类),该技能无可执行代码、零外部依赖、零网络调用,其行为与文档声明 100% 一致,极难被用于恶意目的。

4. 标准化的异常报告:规范化的 CSV 输出格式(包含异常类型、原因、双方标识符、差异字段值)可直接对接商务智能(BI)工具或审计系统,实现流程闭环。

潜在缺点或局限性

1. 来源完全不可追溯(T3 信任等级):维护者为匿名哈希值,既无公开 GitHub 仓库也无组织归属,这意味着无法验证代码来源的真实性,所有信任仅基于当前版本的静态审计快照,难以防范未来潜在有害的版本更新。
2. 缺乏隐私政策声明:技能明确设计用于处理薪资号、驾驶证号等高度敏感的个人身份信息,但全文未包含数据处理声明、最小化原则或使用建议(如脱敏),在企业合规性审查中可能存在不足。

3. 无开源许可证:未声明任何许可证(如 MIT、Apache 2.0),使用、修改和分发的法律权利完全处于灰色地带,给企业级部署带来法律风险。

4. 依赖用户输入的格式与结构:技能的效能高度依赖输入数据遵循特定列名与格式(如 Pay Number、CSV/XLSX),若用户提供的源数据字段名不规范,需额外前期映射工作。

适合的目标群体

  • 人力资源与薪酬审计人员:需要定期交叉核对薪资系统导出数据与合规注册表,确保无

Data quality & reconciliation with exception 内容

assets文件夹
references文件夹
手动下载zip · 2.7 kB
exceptions-report-template.csvtext/plain
请选择文件