导读:无论是任何行业或者何种背景下的企业,在步入信息化数字化阶段后,都会面临数据质量问题。没有一个组织拥有完美的业务流程、完美的技术流程或完美的数据管理实践,所有组织都会遇到与数据质量相关的问题。
相比那些不开展数据质量管理的组织,实施正式数据质量管理的组织碰到的问题会更少。如何确保自己企业的数据质量比较高,或者是逐步提高。一个很重要的保障措施就是颁布管理制度。数据质量管理制度需要包含数据质量管理办法,数据质量管理规范,数据质量绩效考核方面的内容。值得大家注意的是,管理制度搭建的过程中,往往很难区分规范、办法两者之间的关系。
办法 是指对于某一工程作业或者行为进行定性的信息规定。主要是因为无法精准定量而形成的标准。所以相对笼统。
规范 是按照规范制度的要求提出具体可落地、可执行的实施措施。所以一定是很具体可量化的细则。例如:我们在规范中可以强调数据的及时性,但是在具体的管理办法中需要明确、量化及时性这一指标概念。如:获取数据后X个工作日内录入数据,发生变更时X个工作日内完成数据更新等。细分来讲,数据质量管理制度应该由以下几个关键部分组成:
一、规范定义:
1、首先定义清楚什么样的数据称之为高质量的数据,高质量数据并不是越高越好,因为学过质量成本控制的都清楚,数据质量并不存在绝对的,而只要满足企业业务管理需要,即可认为数据质量达标的数据。2、明确什么样的数据属于数据质量管理的范畴。比如核心,重要的数据,所以识别关键数据重要数据,并且还要确认该类数据的生成规则和维护流程。2、达到什么程度才算高质量。例如:确保数据的及时性,究竟怎么才算及时性,是获取数据的时效?还是分发到下游的时效?还是接受数据的时效?
二、稽查监控措施:
1,针对我们已经识别的数据及其对应生成规则,我们需要确定稽查监控的措施。(提升数据质量的关键是预防,而不是事后修正)
2,对于产生问题的错误数据,我们如何去修复改正的相应流程。
3、数据稽查的频率和问题反馈频率,以及反馈渠道或稽查工具平台需要明确清楚。
1、重点描述组织岗位对应的职能,定义需要执行遵守的数据质量管理原则。2、各组织对数据质量流程中的职责权利需要明确清楚,例如谁生产,谁使用,谁负责,谁改进等权责。
评价标准需要量化:一般情况下, 以单条数据为单位,通过数据质量巡检规则,从完整性、及时性、准确性、一致性、唯一性、有效性等六个维度进行检查,根据计算规则得出各区域的数据质量综合得分。常见的数据质量考核计算方法如下: 1)员工数据质量综合得分:以该员工录入维护的相关数据质量项为范围,以数据质量检查项的单条数据质量规则为检查单元,先计算正确记录数占比作为该条数据质量规则对应的得分,再加权计算该数据项的所有数据质量规则得分作为该数据项的得分,最后取所有数据项得分的平均值作为员工的数据质量综合得分,计算过程及计算公式如下:数据质量规则得分=(1-数据质量规则检查的问题数/数据质量规则检查的总数)*100
数据质量规则名称 | 问题记录数 | 记录总数 | 数据质量规则得分 |
规则 A1 | 10 | 100 | 90.00 |
规则 A2 | 50 | 200 | 75.00 |
规则 B1 | 10 | 1000 | 99.00 |
规则 B2 | 20 | 1000 | 98.00 |
规则 C1 | 10 | 1000 | 99.00 |
… | … | … | … |
数据质量规则的得分表(示例)
备注:n 为数据项的数据质量规则总数。数据项名称 | 数据质量规则名称 | 数据质量规则得分 | 权重 | 数据项得分 |
数据项 A | 规则 A1 | 90.00 | 50% | 82.50 |
规则 A2 | 75.00 | 50% |
数据项 B | 规则 B1 | 99.00 | 60% | 98.60 |
规则 B2 | 98.00 | 40% |
数据项 C | 规则 C1 | 99.00 | 100% | 99.00 |
… | … | … | … | … |
数据项的得分表(示例)
备注:n 为员工的数据项总数。
员工名称 | 数据项名称 | 数据项得分 | 项目得分 |
张三 | 数据项 A | 82.50 | 93.37 |
数据项 B | 98.60 |
数据项 C | 99.00 |
李四 | 数据项 A | 80.00 | 80.00 |
数据项 B | 70.00 |
数据项 C | 90.00 |
… | … | … | … |
员工的得分表(示例)
2)团队数据质量综合得分:以该团队的全体成员为范围,统计每个团队的数据质量综合得分,取所有项目得分的平均值作为该团队的综合得分,计算公式如下:备注:n 为数据对象总数。
团队名称 | 员工名称 | 员工数据质量综合得分 | 区域数据质量综合得分 |
数据管理团队 | 张三 | 93.37 | 80.84 |
李四 | 80.00 |
数据执行团队 | 王五 | 99.00 | 96.20 |
赵六 | 90.00 |
… | … | … | … |
区域的得分表(示例)
统计各团队的综合得分,并根据各团队的综合得分从高到低进行排名,由数据管理团队负责人进行有效奖惩排名。如果对数据质量评价结果有意见,可向数据管理团队提出。团队 | 综合得分 | 排名 |
数据对象录入方 A | 100.00 | 1 |
数据对象录入方 B | 96.20 | 2 |
数据对象录入方 C | 90.00 | 3 |
数据对象录入方 D | 80.84 | 4 |
… | … | … |
团队数据质量综合评价表(示例)
五、附则-数据质量衡量维度
在DAMA体系中,数据质量维度是指数据的某个可测量的特性。国际上较为成熟的框架包括:Strong-Wang 框架、Redman的“可表示的三元组”还有Larry Englist的固有特征和实用特征。各个企业公司可以根据自身的业务场景、管控要求选择不同的质量维度框架,本篇文章只针对DAMA UK提出的六个核心维度进行阐述解释:完整性:指数据在创建、传递过程中无缺失和遗漏。包括实体完整、属性完整、记录完整和字段值完整四个方面,完整性是数据质量最基础的评判维度。及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付的及时性,及时抽取、及时展现,如果数据交付时间过长,可能导致分析结论失去参考意义。准确性:指真实、准确记录原始数据,无虚假数据及信息。数据准确反映其所建模的“真实世界”实体。例如:员工的身份信息必须与身份证件上的信息保持一致。一致性:指遵守统一的数据标准,记录和传递数据和信息。主要体现在数据 记录的规范和数据是否符合逻辑。例如:同一工号数据在不同系统的员工姓名不一致。唯一性:指同一数据只能有唯一的标识符。体现在一个数据集中,没有实体多余一次出现,并且每个唯一实体有一个键值且该键值只指向该实体。例如:员工有且仅有一个有效工号。有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。描述数据格式、数据类型、值域和相关业务规则的有效性。例如:员工的国籍类型必须存在于国家基础数据中定义的允许值。企业数据质量管理体系的搭建并非一朝一夕的事情,本文只是针对管理制度的目录编写进行了详细阐述。如何针对管理制度进行组织保障、资金项目保障、人力保障等措施在后续章节会再详细讲到。本公众号所有分享的软件和资料来自网络收集和整理,所有文字和图片版权归属于原作者所有,且仅代表作者个人观点,与数据工匠俱乐部无关,文章仅供读者学习交流使用,并请自行核实相关内容,如文章内容涉及侵权,请联系后台管理员删除
(欢迎大家加入数据工匠知识星球获取更多资讯。)
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。