数据质量管理策略
数据质量问题产生的原因
数据质量问题的主要原因集中在经营管理、业务应用和技术操作3个方面
经营管理方面
缺乏有效管理策略
缺乏统一的数据标准
业务应用方面
数据需求不清晰
录入数据不规范
技术操作方面
数据设计问题
数据传输问题
提升数据质量,是数据治理活动的核心目标
任何质量问题的改善都是建立在评估的基础上的,知道问题在哪里才能实施改进。
加强组织保障
落实数据标准
制度流程保障
数据的质量维度
一致性
完整性
唯一性
准确性
真实性
及时性
关联性
可用性
数据质量规则定义
数据质量规则 | 质量维度 | 检查对象 | 数据质量规则说明 |
---|---|---|---|
不可为空 | 完整性 | 单列 | 数据项不允许为空值 |
语法约束 | 有效性 | 单列 | 数据项满足数据标准规定的取值范围 |
格式规范 | 有效性 | 单列 | 数据项必须满足展现格式约束 |
长度约束 | 有效性 | 单列 | 数据项必须满足约定的长度范围 |
值域约束 | 有效性 | 单列 | 数据项必须满足已定义的枚举值约束 |
事实参照标准 | 准确性 | 单列 | 存在事实数据或标准数据,与该事实或标准对比一致的约束 |
应为空值 | 完整性 | 跨列 | 数据项在某种条件下不应填写 |
填写及时 | 及时性 | 跨列 | 数据进入系统的及时性约束 |
单表等值一致性约束 | 一致性 | 跨列 | 某数据项与其数据实体的其他属性计算值相等的约束 |
单表逻辑一致性约束 | 一致性 | 跨列 | 某数据项与其数据实体的其他属性满足逻辑关系约束(大于或小于) |
记录唯一 | 唯一性 | 跨行 | 记录不重复,是对数据集内部是否存在相似或重复记录的约束规则 |
层次结构一致的约束 | 一致性 | 跨行 | 存在层级结构的数据项,同层级的数据项结构一致 |
… | … | … | … |
数据质量的检查方法
记录数检查法
检查数据表的记录数
关键指标分析法
对比关键指标数据量
历史数据对比法
对比历史数据观察变化
值域判断法
观测数据合理变动区间
经验审核法
人工经验审核
匹配判断法
对比验证,判断数据有效性