ETL工具算法构建企业级数据仓库五步法
DW系统以事实发生数据为基础,自产数据较少。 一个企业往往包含多个业务系统,均可能成为DW数据源。 业务系统数据质量良莠不齐,必须学会去伪存真。 业务系统数据纷繁复杂,要整合进数据模型。 源数据之间关系也纷繁复杂,源数据在加工进DW系统时,有些必须遵照一定的先后次序关系。
流水事件表:此类源表用于记录交易等动作的发生,在源系统中会新增、大部分不会修改和删除,少量表存在删除情况。如定期存款登记簿。 常规状态表:此类源表用于记录数据信息的状态。在源系统中会新增、修改,也存在删除的情况。如客户信息表。 代码参数表:此类源表用于记录源系统中使用到的数据代码和参数。
数据文件大多数以1天为固定的周期从源系统加载到数据仓库。数据文件包含增量,全量以及待删除的增量。 增量数据文件:数据文件的内容为数据表的增量信息,包含表内新增及修改的记录。 全量数据文件:数据文件的内容为数据表的全量信息,包含表内的所有数据。 带删除的增量:数据文件的内容为数据表的增量信息,包含表内新增、修改及删除的记录,通常删除的记录以字段DEL_IND='D'标识该记录。
历史拉链:根据业务分析要求,对数据变化都要记录,需要基于日期的连续历史轨迹; 追加(事件表):根据业务分析要求,对数据变化都要记录,不需要基于日期的连续历史轨迹; Upsert(主表):根据业务分析要求,对数据变化不需要都要记录,当前数据对历史数据有影响; 全删全加算法(参数表):根据业务分析要求,对数据变化不需要都要记录,当前数据对历史数据无影响;
评论