如何评价数据质量
在制造业,每家企业的质量管理部门都有很多统计报表,这些报表会展示大量的真实数据,相关人员看数据,就能直观地了解企业各个环节的质量状况,哪些环节有问题,哪些环节已经得到了改善。
在信息化、数字化领域,大家也十分关注质量问题,经常会说数据质量不行、数据用不了、数据质量太差。
那么什么叫数据质量差?
什么样的数据又叫质量好?
大家是如何得出“数据质量差”的结论的?
给我感觉,绝大多数人对于数据质量只有定性的感受,没有定量的分析。
其实,数据质量是可以定量分析的,而且企业也确实十分需要一份数据质量定量分析报告。
企业进行数据质量分析的前提是要建立:数据质量规则,而数据质量规则的建立是基于业务常识和数据标准的。
比如说,对于人员主数据,我们就需要建立一系列数据质量规则:
1、人员的编号是必填项,不得为空;
2、人员的编号必须是唯一的,不得重复;
3、人员的编号必须符合相关的人员编号管理规范的要求;
4、人员的姓名是必填项,不得为空;
5、人员的中文名必须是中文的,不能有英文、数字和其他字符;
6、人员的出生日期与年龄是正相关的,是在一定区间范围内的,比如说必须大于18岁、小于80岁,如果系统里出现了某位在职员工超过了200岁,那肯定是不合理的;
7、人员的身份证号码应该是18位的,最后一位允许为X,如果身份证号码只有10位,那数据肯定不对;
8、人员的中国手机号码应该是11位的,而且必须以1开头,如果出现了18位的以8开头的号码,那肯定是哪里出问题。
当企业建立了数据质量规则后,就应该依据规则进行数据质量检查。
比如:针对人员主数据检查:空值率、0值率、重复率、格式规范不匹配率等等。
做这个数据质量检查难吗?我觉得不是很难,我已经25年没有亲手写过代码了(暴露年龄了),在上周用了4天的业余时间学了一下python,在周末写了几十行代码就基本实现了自动化的数据质量检查功能。

通过这些量化的质量数据,我们才可能知道真实的数据质量状况,通过对各类数据进行数据质量的对比与分析,我们才能生成企业级的《数据质量综合分析报告》,为企业数据治理实施工作指明方向。