企业大数据平台数据仓库架构建设思路
强大的计算和存储能力,使得更扁平化的数据流程设计成为可能,简化计算过程
多样的编程接口和框架,丰富了数据加工的手段
丰富的数据采集通道,能够实现非结构化数据和半结构化数据的采集
各种安全和管理措施,保障了平台的可用性
第四无需担心数据冗余,充分利用存储换易用。
除了建模方式之外,在星型模型和雪花模型的选择上也有可能让使用者左右为难。事实上,两种模型是并存的,星型是雪花模型的一种。理论上真实数据的模型都是雪花模型;实际数据仓库中两种模型是并存的。
数据采集:把不同数据源的数据统一采集到一个平台上
数据清洗,清洗不符合质量要求的数据,避免脏数据参与后续数据计算
数据归类,建立数据目录,在基础层一般按照来源系统和业务域进行分类
数据结构化,对于半结构化和非结构化的数据,进行结构化
数据规范化,包括规范维度标识、统一计量单位等规范化操作
结构化数据采集又可细分为全量采集、增量采集、实时采集三类。三种采集方式的各自特点和适应场合如下图所示,其中全量采集的方式最为简单;实时采集的采集质量最难控制。
在传统的架构中,日志的结构化处理是放在数仓体系之外的。在大数据平台仓库架构中,日志在采集到平台之前不做结构化处理;在大数据平台上按行符分割每条日志,整条日志存储在一个数据表字段;后续,通过UDF或MR计算框架实现日志结构化。
非结构化的数据需要结构化才能使用。非结构化数据特征提取包括语音转文本、图片识别、自然语言处理、图片达标、视频识别等方式。
统计服务主要是偏传统的报表服务,利用大数据平台将数据加工后的结果放入关系型数据库中,供前端的报表系统或业务系统查询。
分析服务用来提供明细的事实数据,利用大数据平台的实时计算能力,允许操作人员自主灵活的进行各种维度的交叉组合查询。分析服务的能力类似于传统cube提供的内容,但是在大数据平台下不需要预先建好cube,更灵活、更节省成本。
标签服务,大数据的应用场景下,经常会对主体进行特征刻画,比如客户的消费能力、兴趣习惯、物理特征等等,这些数据通过打标签转换成KV的数据服务,用于前端应用查询。(了解更多数据服务化的内容,欢迎点击阅读:快手大数据平台服务化实践)
数据治理的内容主要体现在三个方面:
保障体系:开展数据治理组织建设,并建立配套的流程和标准规范 内容建设:包括数据架构顶层规划设计、数据模型标准设计、数据开发、生产运营维护、数据共享服务 管理体系:数据治理和数据安全是核心重点
事前,我们可以通过制定每份数据的数据质量监控规则,越重要的数据对应的监控规则应该越多。
事中,通过监控和影响数据生产过程,对不符合质量要求的数据进行干预,使其不影响下流数据的质量。
事后,通过对数据质量情况进行分析和打分,将一些不足和改进反馈数据监控体系,推动整体的数据质量提升。(了解更多数据质量的内容,欢迎请点击阅读:企业数据质量管理的核心要素和技术路线(PPT))