数据治理的数字画像
引言
随着全网步入大数据时代,企业的目光日益聚焦在利用大数据服务精细化营销、精细化运营上,各类客户画像、员工画像理论如雨后春笋般兴起,而数据应用的底层——数据治理,却鲜有整体的理论体系。如何避免治理工作自身“无的放矢”,如何量化数据基础建设的贡献,我们需要为数据治理工作描绘一张“数字画像”。这个命题的内涵外延非常丰富,在此我们选取用户体验、架构质量两个角度进行讨论。
基于不同的感知角度,将用户分为外部客户、内部用户、管理层、技术人员四类,针对特定的业务场景刻画四类使用者所体会到的“科技赋能”。
1、外部客户
功能体验指标:功能体验指标用于衡量操作平台的易用性及直观程度。可以通过各类埋点,对用户的点击行为、页面停留时间、页面浏览深度进行跟踪。从而挖掘用户常使用的功能,探究用户的实际需要,对于常用功能可以开展功能的改版优化,进行同业产品比较、用户反馈调查等,重点关注主要功能的流畅度、实用性。
平台服务指标:
(1)服务平台一般利用API接口向外提供数据,因此,通过计算API调用率可以计算出其向外输出服务的活跃程度。
(2)由数据服务带来的产品升值也是需要衡量的一大重要指标。营销、运营等商业活动价值提升以一定的比例分配给其相应的数据治理工作,从业务部门有感的角度评估数据治理工作对营销等活动的赋能。
2、内部用户
便利性:过去业务部门向数据管理部门申请使用数据,通常使用邮件或行政流程的方式,这种方法无法实时跟踪申请进度,也无法在统一的页面集中管理,导致相关工作人员在查询与沟通上花费了大量精力。建立自动化、规范化流程以及线上运营工具,将极大地便利流程,因此,手工提取工单压降比率可以作为度量内部用户程度的指标。
时效性:线上化数据治理意味着资产地图、标准架构即存放在用户指尖,关键作业的全链路交付时间是触达内部用户的另一直观感受。该指标可以通过统计各节点的流转时间,计算相应平均值获得。
贡献度:不仅是底层的数据管理,数据的应用输出同样能够为用户带来实际业务价值。BI工具的使用、模型提供数量等指标标志着用户对于应用类数据成果的满意度。
3、管理层
质量提升:对于管理层而言,保障数据仓库、数据湖的“清澈”是他们关心的问题。由于监管报送结果是银保监对银行的重点考核指标,报送规定的数据质量达标率成为对于管理层数据治理成效最直观的反映。基于DQC的一系列指标同样可作为面向管理层的数据清洁度体现。
效率提升:除监管要求之外,数据运营成本对于全行管理也是至关重要的。只有建立规范和高效的数据架构,压降数据报表,降低储存、运维成本,才能实现精细化营运,维持高效率盈利。
4、技术人员
数据字典评分:当企业实施开发过程强管控时,数据字典的角色可看作是法律之于社会,其整体逻辑必须经得起反复推敲。在数据字典的查询页面设立评分反馈是一种简单但行之有效的方法。页面上有计划的引导,反映设计者关注开发人员的使用体验,从而让“吐槽”变成建议,优化和解决使用数据字典时遇到的问题。
全行统一的数据架构应在追求高效率的同时降低成本,根据《华为数据之道》中信息架构的经典四范式,我们将从模型、分布、标准、资产四个角度对架构赋能能力进行度量。
1、模型
公共层加工频率:公共层中存放有事实数据、维表数据等等,它们支撑着指标体系中的一级指标层。在建立指标时,将维度规范化、集约化,提高公共指标的复用性,减少重复加工的操作,故公共层数据模型的复用率可作为公共层架构评估的指数之一。
应用层引用频率:类似于人际关系网络拓扑结构中的核心人物算法,该指数直接衡量应用层中数据的系统性重要程度,引导资产盘点的目标。数据血缘关系是一种有向的、无权值、无自环的网络图。被引用频率高的资产一般来源于关键业务实体中最准确和最及时的业务记录。这一些资产被跨部门、跨业务领域调用的概率最大,需要实现所有部门可访问并且访问到相同的数据。该指数还能够有效地筛选出“孤儿表”、临时表,减少资源投入和储存成本。
2、分布
数据覆盖:对于大型银行而言,数以百计的系统,数以万计的库表在全国范围内分布式储存。采集是资产盘点的第一步,测量采集数在全量系统的覆盖率帮助我们明确当前采集的进度,定位未采集的数据来源。
数据冗余:数据冗余指同层数据的冗余,具体可分为两个来源。第一,多个物理位置中存储了相同意义的数据;第二,架构模型本身在设计上有较多的重复交叉项。
数据容量:数据容量是对数据中台的整体描述,它包括当前中台所囊括的整体数据体量的绝对值,也包含该体量随时间的增长比例。数据容量并非越高或者越低更理想,它需要结合银行的现状辩证性地看待。
3、标准
标准稳定性:数据标准规范化了数据含义、结构等等,应当满足内容统一、不交叉定义等条件,避免数据标准内部发生“数据打架”。
标准落标率:在标准的技术规范完备,主题齐全,标准已权威发布的前提下,标准落标率反映了数据标准“最后一公里”的执行情况。借助自动化工具,能够计算出各类分层、切片后的数据落标率,智能化地发现落标潜在问题。
4、资产
技术元数据统计:技术元数据打通了源数据和数据仓库,记录了数据从产生到消亡的过程。我们从中挑选出系统覆盖率、系统内表级覆盖率、表名以及字段名的有效率、枚举值的有效率等统计指标表示数据架构中技术类资产的产出效益。
企业活动命中率:数据资产是从业务流程、业务模型中抽取出来的数字化描述。标签资产对业务行为的命中率、指标资产对报表统计的命中率、报表资产的用户访问量等数值越高,代表着资产内容映射企业活动的准确度越高。
伴随着企业数字化转型不断深入,“数据治理的数字画像”从方法论到实践都将趋于完善,内容价值、安全性能、用户体验也会随之提高。如何动态地衡量数据治理工作成效,建立适合自身企业的“北极星指标”,是每一家处于智慧转型阶段的公司所必须研究的,它的成功将创造出不可估量的商业价值。
推荐阅读:
不是你需要中台,而是一名合格的架构师(附各大厂中台建设PPT)