万字长文详解ETL和数据建模~!
Python涨薪研究所
共 9753字,需浏览 20分钟
· 2021-06-25
源 / 文/
什么是ETL
数据仓库的架构
ETL构建企业级数据仓库五步法的流程
1.确定主题
2.确定量度
3.确定事实数据粒度
4.确定维度
缓慢变化维度第一种类型:历史数据需要修改。这样新来的数据要改写历史数据,这时我们要使用UPDATE,例如产品的ID号码为123,后来发现ID 号码错误了,需要改写成456,那么在修改好的新数据插入时,维度表中原来的ID号码会相应改为456,这样在维度加载时要使用第一种类型,做法是完全更 改。 缓慢变化维度第二种类型:历史数据保留,新增数据也要保留。这时要将原数据更新,将新数据插入,需要使用UPDATE / INSERT,比如某一员工2005年在A部门,2006年时他调到了B部门。那么在统计2005年的数据时就应该将该员工定位到A部门;而在统计 2006年数据时就应该定位到B部门,然后再有新的数据插入时,将按照新部门(B部门)进行处理,这样我们的做法是将该维度成员列表加入标识列,将历史的 数据标识为“过期”,将目前的数据标识为“当前的”。另一种方法是将该维度打上时间戳,即将历史数据生效的时间段作为它的一个属性,在与原始表匹配生成事 实表时将按照时间段进行关联,这样的好处是该维度成员生效时间明确。 缓慢变化维度第三种类型:新增数据维度成员改变了属性。例如某一维度成 员新加入了一列,该列在历史数据中不能基于它浏览,而在目前数据和将来数据中可 以按照它浏览,那么此时我们需要改变维度表属性,即加入新的列,那么我们将使用存储过程或程序生成新的维度属性,在后续的数据中将基于新的属性进行查看。
5.创建事实表
ETL中高级技巧的运用
1.准备区的运用
2.时间戳的运用
3.日志表的运用
4.使用调度
ETL和SQL的区别与联系
ETL算法和工具简介:
1.常用的ETL工具
2.ETL是DW系统的基础
3.源数据的分类
4.数据文件的类型
5.ETL标准算法
6.ETL标准算法选择
7.历史拉链法
8.追加算法
9.Upsert算法
10.全删全加算法
11.处理复杂度
12.近源模型层主要算法
13.整合模型层算法
14.技术缓冲到近源模型层的数据流算法-APPEND算法
15.技术缓冲到近源模型层的数据流算法-常规拉链算法
16.技术缓冲到近源模型层的数据流算法-全量带删除拉链算法
17.近源模型层到整合模型层的数据流算法-APPEND算法
18.近源模型层到整合模型层的数据流算法-MERGE INTO算法
19.近源模型层到整合模型层的数据流算法-常规拉链算法
20.近源模型层到整合模型层的数据流算法-基于增量数据删除拉链算法
21.近源模型层到整合模型层的数据流算法-基于全量数据删除拉链算法
22.近源模型层到整合模型层的数据流算法-经济型常规拉链算法
23.近源模型层到整合模型层的数据流算法-经济型基于增量数据删除拉链算法
24.近源模型层到整合模型层的数据流算法-经济型基于全量数据删除拉链算法
25.近源模型层到整合模型层的数据流算法-PK_NOT_IN_APPEND算法
26.近源模型层到整合模型层的数据流算法-以源日期字段自拉链算法
好文推荐
拜访了这位小哥的GitHub后,我失眠了
知乎高赞:国内高校的计算机专业教育都怎么啦?
鸿蒙到底是不是Android套皮?(少BB看源码)
一键三连「分享」、「点赞」和「在看」
技术干货与你天天见~
评论
一站式解决方案:基于 Arthas 实现服务发现和权限控制
来源:juejin.cn/post/7281849496983994383👉 欢迎加入小哈的星球 ,你将获得: 专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡 / 赠书福利全栈前后端分离博客项目 2.0 版本完结啦, 演示链接
小哈学Java
0
互联网晚报 | 大麦网已退款凤凰传奇演唱会“柱子票”;钟薛高再成被执行人;iPhone 16或取消实体音量键和电源键
大麦网回应凤凰传奇演唱会买到“柱子票”:已退票退款据报道,凤凰传奇2024巡回演唱会常州站演出结束的第二天,有网友称自己在大麦网买到“柱子票”,因为观看效果不佳,要求退款被拒。23日,记者从涉事网友处了解到,大麦方面给出了退款建议,但被其拒绝,“我希望平台退款加赔偿,并重视屡次出现的‘柱子票’问题。
产品刘
0
面试官:在原生input上面使用v-model和组件上面使用有什么区别?
前言面试官:vue3的v-model都用过吧,来讲讲。粉丝:v-model其实就是一个语法糖,在编译时v-model会被编译成:modelValue属性和@update:modelValue事件。一般在子组件中定义一个名为modelValue的props来接收父组件v-model传递的值,然后当子组
高级前端进阶
0
AI论文写作工具和生成器(一)
随着人工智能和大模型的迅猛发展,AI对研究人员和学生提供了极大的写作便利。本文将介绍市面上常用的AI论文写作工具,帮助你提高论文写作效率并遵循学术道德。请仅将AI论文生成器视为辅助参考手段,切勿直接挪用全文。XPaper AlXPaper AI是由点击式创作工具晓语台推出的一款论文写作生成平台,只需
IQ前端
0
Langchain使用 | 模型、提示和解析器、存储
零、LangChain介绍为各种不同基础模型提供统一接口- 帮助管理提示的框架- 一套中心化接口,用于处理长期记忆(参见Memory)、外部数据(参见Indexes)、其他 LLM(参见Chains)以及 LLM 无法处理的任务的其他代理(例如,计算或搜索)。总的来说,有六大核心模块:Models:
Python之王
0
你真的理解 devDependencies 和 dependencies 的区别吗?
点击上方 前端Q,关注公众号回复加群,加入前端Q技术交流群作者:井柏然原文:https://juejin.cn/post/7135795969370619918你是否真的理解 devDependencies 和 dependencies 的区别?如果不能确切的回答、理解还停留在模糊的阶段,
前端Q
0
小美播报|3月IPTV数据排行榜发布!
小美播报3月IPTV数据排行榜:《与凤行》登顶连续剧榜榜首拥有4.05亿家庭用户的中国IPTV平台已经成为国内主流视听平台,IPTV平台数据对视听产业各环节都具有重要意义。截至2024年4月,全国已有29个省级IPTV加入“看中国”,覆盖全国超2.25亿户家庭、辐射近7亿人。点击查看详情湖南广电与马
流媒体网
0
SpringBoot+Minio实现上传凭证、分片上传、秒传和断点续传
关注我们,设为星标,每天7:40不见不散,架构路上与您共享回复架构师获取资源大家好,我是你们的朋友架构君,一个会写代码吟诗的架构师。Spring Boot整合Minio后,前端的文件上传有两种方式:1、文件上传到后端,由后端保存到Minio这种方式好处是完全由后端集中管理,可以很好的做到、身份验证、
Java架构师社区
0