干货:数据仓库架构及基础知识
共 5784字,需浏览 12分钟
·
2021-09-14 06:49
权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
1)数据仓库是用于支持决策、面向分析型数据处理;
2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
3、如何构建数据仓库?
1)基础能力上的区别
2)业务能力上的区别
8、数据仓库最重要的是什么?
9、概念模型、逻辑模型、物理模型分别介绍一下?
10、SCD常用的处理方式有哪些?
11、怎么理解元数据?
描述 "数据"背后的业务含义。
主题定义:每段 ETL、表背后的归属业务主题。
业务描述:每段代码实现的具体业务逻辑。
标准指标:类似于 BI 中的语义层、数仓中的一致性事实;将分析中的指标进行规范化。
标准维度:同标准指标,对分析的各维度定义实现规范化、标准化。
不断的进行维护且与业务方进行沟通确认。
根据 ETL 目的的不同,可以分为两类:数据清洗元数据;数据处理元数据。
数据清洗,主要目的是为了解决掉脏数据及规范数据格式;因此此处元数据主要为:各表各列的"正确"数据规则;默认数据类型的"正确"规则。
数据处理,例如常见的表输入表输出;非结构化数据结构化;特殊字段的拆分等。源数据到数仓、数据集市层的各类规则。比如内容、清理、数据刷新规则。
12、数仓如何确定主题域?
13、如何控制数据质量?
14、模型设计的思路?业务驱动?数据驱动?
15、为什么需要数据仓库建模?
16、数据仓库建模方法有哪些?
星型模型
雪花模型
星座模型
17、数仓架构为什么要分层?
分层可以清晰数据结构,使用时更好的定位和理解
方便追踪数据的血缘关系
规范数据分层,可以开发一些通用的中间层数据,能够减少极大的重复计算
把复杂的问题简单化
屏蔽原始数据的异常,下游任务没有感知异常
来源:全栈云技术架构
转载申明:转载本号文章请注明作者和来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“全店铺技术资料打包(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。