数据治理到底能不能干

浪尖聊大数据

共 2071字，需浏览 5分钟

·

2022-07-08 00:53

为什么是脏活、累活？

1. 源数据

烟囱式开发：
业务繁多、数据库多而乱，系统与系统之间错综复杂
数据库种类：
架构经历多次变迁，切换不完全，需要从Mysql、oracle、hbase甚至excle表中跨库、跨实例、跨种类才能获得有效业务数据
数据结构混乱：
同一字段，类型、命名都不一致
文档缺失：
无数据库文档或文档陈旧

2. 变迁

系统版本升级：
每一次升级都只是掩盖之前的错误，数据治理需要从源头
人员变更：
梳理过程中的大部分问题最终答案：
“不清楚，原来维护人已离职”
数据流转：
数据从源头经过很多次不规范的同步

3. 存量

各自为政：
各业务部门已有自己的统计逻辑和报表，同一指标汇总维度又不一致，梳理、治理、输出还要尽量不影响已有报表结果
半途而废：
前任都知道数据治理、统一出口的重要性，但只完成一部分就放弃了。
问题在于“完成的一部分”有人还在用

怎么开始？

1. 方法论

统一定义：
对个性化的数据指标统一规范定义
标准建模：
建立数据公共层对模型架构进行标准规范设计和管理
规范研发：
将建模方法体系贯穿在整个数据研发流程
工具保障：
通过研发一系列的工具保障方法体系的落地实施

2. 统一方法策略：统一归口、统一出口

图片来源：阿里巴巴 OneData

3. 统一业务归口

1.模型

规范化模型分层、数据流向和主题划分，从而降低研发成本，增强指标复用性，并提高业务的支撑能力。

2.规范

规范是数仓建设的保障。为了避免出现指标重复建设和数据字段难以理解的情况

(1) 词根

词根是维度和指标管理的基础，划分为普通词根与专有词根，提高词根的易用性和关联性。

普通词根：
描述事物的最小单元体
专有词根：
具备约定成俗或行业专属的描述体，如：
-USD。

(2) 表命名规范

通用规范

表名、字段名采用一个下划线分隔词根（示例：
clienttype->client_type）。
每部分使用小写英文单词，属于通用字段的必须满足通用字段信息的定义。
表名、字段名需以字母为开头
表名、字段名最长不超过64个英文字符。
优先使用词根中已有关键字（数仓标准配置中的词根管理)
在表名自定义部分禁止采用非标准的缩写

表命名规则

表名称 = 所处分层 + 业务主题 + 子主题 + 表含义 + 更新频率 + [分表：_0、_10]

(3) 指标命名规范

结合指标的特性以及词根管理规范，将指标进行结构化处理。

A. 基础指标词根，即所有指标必须包含以下基础词根：

基础指标词根	英文全称	Hive数据类型	MySQL数据类型	长度	精度	词根	样例
数量	count	Bigint	Bigint	10	0	cnt
金额类	amout	Decimal	Decimal	20	4	amt
比率/占比	ratio	Decimal	Decimal	10	4	ratio	0.9818

B.日期修饰词，用于修饰业务发生的时间区间。

日期类型	全称	词根	备注
日	daily	d
周	weekly	w
月	monthy	m
季度	quarterly	q	Q1 ~ Q4

C.聚合修饰词，对结果进行聚集操作。

聚合类型	全称	词根	备注
平均	average	avg
周累计	wtd	wtd

E.基础指标，单一的业务修饰词 + 基础指标词根构建基础指标，例如：交易金额 - trade_amt

F.派生指标，多修饰词+基础指标词根构建派生指标。派生指标继承基础指标的特性，例如：新增门店数量-new_store_cnt

(4) 清洗规范

确认了字段命名和指标命名之后，根据指标与字段的部分特性，我们整理出了整个数仓可预知的24条清洗规范：

数据类型	数据类别	Hive类型	MySQL类型	长度	精度	词根	格式说明	备注
日期类型	字符日期类	string	varchar	10		date	YYYY-MM-DD	日期清洗为相应的格式
数据类型	数量类	bigint	bigint	10	0	cnt	活跃门店

3. 统一数据出口

数仓建设保证数据质量以及数据的使用，对数据资产管理和统一数据出口之前：

统一指标管理，保证了指标定义、计算口径、数据来源的一致性
统一维度管理，保证了维度定义、维度值的一致性
统一数据出口，实现了维度和指标元数据信息的唯一出口，维值和指标数据的唯一出口

4. 数据资产沉淀

图片来源：阿里巴巴 OneData

词根、命名归档
指标定义说明、指标树归档
维度、维度树、数据类型
计算逻辑统一，如：
利润、成本等形成标准计算公式

5. 流程改善

建立运维监控体系

开发流程(仅包含数据模型及 ETL )，关键节点维度、指标及计算逻辑确定

开发流程

6. 标准化规范化数据流向

避免大量的烟囱式开发、重复生成明细表或轻度汇总表、分层引用等不规范性及数据链路混乱

标准化数据流向图

标准的数据流向进行开发：
即ODS–>DWD–>DWS–>APP 或 ODS–>DWD–>DWM–>APP
新业务数据流：
遵循ODS->DWD->APP或者ODS->DWD->DWS->APP两个模型数据流

寄语：一旦开始数据治理，不要半途而废

https://www.zhihu.com/answer/2551758354
原文

浏览 43

点赞

收藏

分享

举报

评论

图片

表情

「外包」到底能不能干？

大数据解析:程序员到底能干到多少岁?

数据治理之元数据治理

元数据是描述数据的数据，用于打破业务和IT之间的语言障碍，帮助业务更好地理解数据。元数据被认为是数据治理的基石，元数据治理贯彻数据产生、加工、消费的全过程，沉淀了数据资产，搭建了技术和业务的桥梁。本文介绍什么是元数据和元数据管理，以及常用的元数据管理策略、方法和技术01什么是元数据元数据是关于数据的

【DAMA】数据治理-数据治理活动

MANUFACTURING INDUSTRYDAMA 数据治理活动数据战略战略是选择和决策的集合,共同绘制出一个高层次的行动方案,以实现高层次目标。在国际象棋比赛中,战略是将军获胜或在僵局中生存的一个有序移动的集合。战略行动计划

消息治理，到底需要治理哪些内容？

数据治理平台

一站式解决数据统计项查询及管理、元数据的管理、数据资产可视化、数据血缘追溯、数据质量监控及预警、数据任务智能调度等问题。从底层架构层面构建细颗粒度的权限管理体系，为大数据处理的质量和效率提供了可靠安全的保障。数据治理平台全面灵活地应对企业大数据处理需求，为业务提供持续的、可度量的数据价值。

聊聊数据治理

程序源代码

所谓数据治理

程序源代码

美林数据-数据治理平台

盘活数据资产，打通数据价值释放路线

数据中台数据治理

惟客数据治理模型基于既定的治理原则，清晰确定数据治理涉及的范围，制定可量化、可执行的实施与评估方法帮助企业或者组织实现其成本、收益、风险三者的最优化控制目标，并持续迭代完善和优化

点赞

收藏

分享

举报