万字长文详解ETL和数据建模~!
Python涨薪研究所
共 9753字,需浏览 20分钟
·
2021-06-25 20:06
源 / 文/
什么是ETL
数据仓库的架构
ETL构建企业级数据仓库五步法的流程
1.确定主题
2.确定量度
3.确定事实数据粒度
4.确定维度
缓慢变化维度第一种类型:历史数据需要修改。这样新来的数据要改写历史数据,这时我们要使用UPDATE,例如产品的ID号码为123,后来发现ID 号码错误了,需要改写成456,那么在修改好的新数据插入时,维度表中原来的ID号码会相应改为456,这样在维度加载时要使用第一种类型,做法是完全更 改。 缓慢变化维度第二种类型:历史数据保留,新增数据也要保留。这时要将原数据更新,将新数据插入,需要使用UPDATE / INSERT,比如某一员工2005年在A部门,2006年时他调到了B部门。那么在统计2005年的数据时就应该将该员工定位到A部门;而在统计 2006年数据时就应该定位到B部门,然后再有新的数据插入时,将按照新部门(B部门)进行处理,这样我们的做法是将该维度成员列表加入标识列,将历史的 数据标识为“过期”,将目前的数据标识为“当前的”。另一种方法是将该维度打上时间戳,即将历史数据生效的时间段作为它的一个属性,在与原始表匹配生成事 实表时将按照时间段进行关联,这样的好处是该维度成员生效时间明确。 缓慢变化维度第三种类型:新增数据维度成员改变了属性。例如某一维度成 员新加入了一列,该列在历史数据中不能基于它浏览,而在目前数据和将来数据中可 以按照它浏览,那么此时我们需要改变维度表属性,即加入新的列,那么我们将使用存储过程或程序生成新的维度属性,在后续的数据中将基于新的属性进行查看。
5.创建事实表
ETL中高级技巧的运用
1.准备区的运用
2.时间戳的运用
3.日志表的运用
4.使用调度
ETL和SQL的区别与联系
ETL算法和工具简介:
1.常用的ETL工具
2.ETL是DW系统的基础
3.源数据的分类
4.数据文件的类型
5.ETL标准算法
6.ETL标准算法选择
7.历史拉链法
8.追加算法
9.Upsert算法
10.全删全加算法
11.处理复杂度
12.近源模型层主要算法
13.整合模型层算法
14.技术缓冲到近源模型层的数据流算法-APPEND算法
15.技术缓冲到近源模型层的数据流算法-常规拉链算法
16.技术缓冲到近源模型层的数据流算法-全量带删除拉链算法
17.近源模型层到整合模型层的数据流算法-APPEND算法
18.近源模型层到整合模型层的数据流算法-MERGE INTO算法
19.近源模型层到整合模型层的数据流算法-常规拉链算法
20.近源模型层到整合模型层的数据流算法-基于增量数据删除拉链算法
21.近源模型层到整合模型层的数据流算法-基于全量数据删除拉链算法
22.近源模型层到整合模型层的数据流算法-经济型常规拉链算法
23.近源模型层到整合模型层的数据流算法-经济型基于增量数据删除拉链算法
24.近源模型层到整合模型层的数据流算法-经济型基于全量数据删除拉链算法
25.近源模型层到整合模型层的数据流算法-PK_NOT_IN_APPEND算法
26.近源模型层到整合模型层的数据流算法-以源日期字段自拉链算法
好文推荐
拜访了这位小哥的GitHub后,我失眠了
知乎高赞:国内高校的计算机专业教育都怎么啦?
鸿蒙到底是不是Android套皮?(少BB看源码)
一键三连「分享」、「点赞」和「在看」
技术干货与你天天见~
评论