数据治理:数据质量的度量维度!肉眼品世界共 2756字,需浏览 6分钟 ·2022-09-17 21:21数据质量的度量维度,业内还没有一个统一的标准,以下分享重要&核心的数据质量度量维度。建议收藏!1、记录数完整记录数:正在评估数据集的记录数值。检查记录数量是否与预期数量相负。如果不符,调查却是记录的根本原因并再次剖析数据集。2、完整性&填充率完整性或填充率:包含值的字段的数量和百分比的测量标准。完整性或填充率只基于数值的存在性。需要另外的分析以确定这些值是否有效。要诠释结果,需要知道那些字段是必须的(强制性的)、可选择的或有条件的。如果字段是必填的(应用必填、业务必填或者该字段是主键),其填充率应是100%。如果必填字段的填充率小于100%,请调查以下原因:如果是业务必填字段,查看应用软件是否需要登录;如果应用软件不需登录,查看其是否可针对需要的数据进行修改;如果应用软件不能修改,对那些录入数据的人的资料进行归档,并对他们进行培训。这种情况下,应密切监视数据;检查在数据库中实施“非空”的可行性;在两个不同层面上检查完整性/填充率:单个列或字段:确定字段中是否存在数据;一组数据:确定完成特定基本流程所需一系列字段的填充率。3、空值/空字段空:空字段(空是因为字段中什么也没有)的数量和百分比的测量标准。空是与完整性和填充率相反的。完整性或填充率的分析同样适用于此,只需用相反的观点来进行评判。4、唯一值列表唯一值列表:字段中不同或唯一值的列表。确定数值是允许的或有效的。不同的字段的有效值集也不同。有效值集也被看成数据域或值域集。检查该字段中不同值的数目与有效值的数目。可能的话,比较实际的不同值列表与预期有效值列表。预期有效值可来自诸如参考表格或编码列表的数值列表,也可来自主题专家,或来自公司遵循的外部标准。如果业务没有有效值列表,请使用来自剖析的列表作为起点来开发一个有效值列表。寻找默认值,将默认值归档;寻找有重复含义的值;如果对数值列表进行变更,将所有数值映射归档,并用需要变更的值更新记录。5、数据有效性有效性:对字段中的值是否在允许的或有效的数值集中的测试。对每个字段的“有效的”含义进行定义和归档;不同字段的有效性构成不同。合法性测试可包括格式或样式、域、有效编码、类型(字母的/数字的)、依赖关系、业务规则、数据录入标准、最大和最小范围,等等。例如,记录中的所有编码是否被系统编码表中的业务定义为有效编码;如果是数字字段,字段中是否有字幕;日期字段中的日期是否在必需的范围内。有效性测试结果可以完整性/填充率的百分比来报告。6、频率分布频率分布:字段中唯一值的分布,通过数量和百分比来度量。频率分布给出了一个使用思路,评判最高和最低数量值。可考虑放弃那些使用频率低的数值,并改用一个常用的可比价的数值。研究所发现的常量。常量是指每个记录有相同数值的任一列,这可以是从未使用或不再使用的数据元素的标志。确定数值分布是否是所期望的分布。如果对数值列表已做变更,请将数值映射归档,并用需要变更的数值更新记录。寻找在分析信息环境时可能已发现的且正被业务广泛使用的那些异常数值的发生频率。观察默认值或假值的频率分布,使用频率分布来确定待选主键。如果不同值的比重较低,等值字段可能是相关的,许多空值或零值可能就有问题了。通常50%的不同值将由其他列确定是否为纯业务数据。有特定值的字段(例如,所有记录在该字段的值均相等)是潜在无用的或具有常数属性,确定是否应为此在数据库中占用一定空间。考虑输入到一个常数表中。7、最大数值和最小数值范围最大数值和最小数值范围:由最大数值和最小数值表示的数值范围。数值范围上界和下界的任何数值可快速显示数据质量问题;观察重要日期字段的最大值和最小值;寻找期望之外的或归档范围以外的数值。8、数据新鲜度新鲜度:关键日期字段或日期范围的频率分布。与日期字段或数据范围相关的一类频率分布;还被用于向两个其他数据质量维度模拟或提供输入数据:及时性(数据的及时程度)和数据衰变(数据的负面变化率)。9、内容内容:数据内容与列或字段名称的匹配。比较列或字段名与数据内容;字段包含的是否是预期数据。10、重复重复:确定是否存在意外重复。通过评判重复含义数值列表来获取重复数据的高层视图;有些工具提供不同列间的数据值比较,以及通常基于不同数值精确字符串匹配的重叠百分比;有些数据剖析工具强调仅基于精确字符串匹配的重复数据,但其他工具使用经常被称为“模糊匹配”的工具。11、数据类型寻找通过剖析工具推断的、预期数据类型和实际数据类型之间的差异。工具可显示归档的数据类型(或每个元数据的预期数据类型),并与从实际数据内容中推断出的数据类型进行比较;该工具也标记源数据类型和目标数据类型之间的不相容性,该问题需在迁移数据时予以解决。对数据模型而言,该工具也呈现数据类型以及可用于该模型中的替代数据类型实例。12、大小或长度大小或长度:字段中数据的长度。寻找实际数据大小与预期数据大小之间的差异;寻找大量具有完全相同大小的记录,这可显示出在该字段中已被缩减了的数据;如果源和目标系统之间的大小存在差异,确定超出目标大小的源记录的数目和百分比:如果数目小,需人工更新记录;如果数目大,需了解如果数据在迁移时被删减将会对业务产生什么影响。13、样式样式:数据中发现的唯一式样的数量和百分比。寻找意外的样式;预期的或有效的样式将根据字段的不同而不同;寻找ID字段的同一样式。14、精度对数字数据,要确定小数点的位置是否在所需精度的位置。15、一致性一致性:同一记录中相关字段的合理性测试。引用完整性。评判记录中数据的一致性;评判记录之间数据的一致性;评判高层业务规则以了解其关联关系,并寻找符合性;寻找其他依赖关系。一个字段中具有正确格式的值与另一个字段中的值相关联;寻找计算:作为每一个源元素的存储计算值是正确的。16、并发性和及时性并发性和及时性:各种数据库、应用软件和流程之间的数据同步和数据时延,剖析多个数据库,并比较其结果的差异。17、业务规则确定是否没被植入进数据结构中的业务/数据规则正在由应用程序逻辑实施。这通常都是针对有自身规则的数据子集。例如,可能有具有特定规则的不同当事者类型(组织、合同等),这些规则需要某些列为空,而其他列要输入。推荐阅读:世界的真实格局分析,地球人类社会底层运行原理不是你需要中台,而是一名合格的架构师(附各大厂中台建设PPT)企业IT技术架构规划方案论数字化转型——转什么,如何转?华为干部与人才发展手册(附PPT)企业10大管理流程图,数字化转型从业者必备!【中台实践】华为大数据中台架构分享.pdf华为的数字化转型方法论华为如何实施数字化转型(附PPT)超详细280页Docker实战文档!开放下载华为大数据解决方案(PPT)浏览 34点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 所谓的数据质量程序源代码0【DAMA】数据治理-数据治理活动MANUFACTURING INDUSTRYDAMA 数据治理活动数据战略 战略是选择和决策的集合,共同绘制出一个高层次的行动方案,以实现高层次目标。在国际象棋比赛中,战略是将军获胜或在僵局中生存的一个有序移动的集合。战略行动计划总要有一个梦想或大或小0所谓的数据质量浪尖聊大数据0数据治理之元数据治理元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据。元数据被认为是数据治理的基石,元数据治理贯彻数据产生、加工、消费的全过程,沉淀了数据资产,搭建了技术和业务的桥梁。本文介绍什么是元数据和元数据管理,以及常用的元数据管理策略、方法和技术01什么是元数据元数据是关于数据的数据工匠俱乐部1数据中台数据治理惟客数据治理模型基于既定的治理原则,清晰确定数据治理涉及的范围,制定可量化、可执行的实施与评估方法 帮助企业或者组织实现其成本、收益、风险三者的最优化控制目标,并持续迭代完善和优化WakeData惟客数据0基于区块链治理数据,大数据治理的新思路浪尖聊大数据0所谓数据治理程序源代码0聊聊数据治理程序源代码0美林数据-数据治理平台盘活数据资产,打通数据价值释放路线美林数据0数据治理平台一站式解决数据统计项查询及管理、元数据的管理、数据资产可视化、数据血缘追溯、数据质量监控及预警、数据任务智能调度等问题。从底层架构层面构建细颗粒度的权限管理体系,为大数据处理的质量和效率提供了可靠安全的保障。数据治理平台全面灵活地应对企业大数据处理需求,为业务提供持续的、可度量的数据价值。百度安全0点赞 评论 收藏 分享 手机扫一扫分享分享 举报