logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

GZ033 大数据应用开发赛项正式赛卷解析 - 任务B:离线数据处理_子任务二:数据清洗

子任务二描述

编写Scala代码,使用Spark将ods_ds_hudi库中相应表数据全量抽取到Hudi的dwd_ds_hudi库(路径为路径为/user/hive/warehouse/dwd_ds_hudi.db)中对应表中。表中有涉及到timestamp类型的,均要求按照yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-dd HH:mm:ss。(若dwd_ds_hudi库中部分表没有数据,正常抽取即可)

说明:因为数据清洗部分的各个子任务都类似,因此这里只演示其中第一个需求的实现。

子任务1描述

1、抽取ods_ds_hudi库中user_info表中昨天的分区(子任务一生成的分区)数据,并结合dim_user_info最新分区现有的数据,根据id合并数据到dwd_ds_hudi库中dim_user_info的分区表(合并是指对dwd_ds_hudi层数据进行插入或修改,需修改的数据以id为合并字段,根据operate_time排序取最新的一条),分区字段为etl_date且值与ods_ds_hudi库的相对应表该值相等,并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“user1”。若该条记录第一次进入数仓dwd_ds_hudi层则dwd_insert_time、dwd_modify_time均存当前操作时间, ......

......

抱歉,只有登录会员才可浏览!会员登录