logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

大数据应用开发赛题第10套 任务B:离线数据处理 子任务二:数据清洗

编写Scala代码,使用Spark将ods库中相应表数据全量抽取到Hudi的hudi_gy_dwd库(路径为/user/hive/warehouse/hudi_gy_dwd.db)中对应表中。表中有涉及到timestamp类型的,均要求按照yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-dd HH:mm:ss。

子任务分析

大数据应用开发赛题第10套题的离线数据处理任务与其他几套题的任务相同,唯一区别就是将数据仓库Hive换成了数据湖工具Hudi。

经过测试,Spark与Hudi的集成,在spark-shell下执行最为简单方便。因此本示例在spark-shell下完成。

在开始本示例之前,请将下载的hudi-spark3.1-bundle_2.12-0.12.2.jar包拷贝到$SPARK_HOME/jars/目录下,将hive-site.xml配置文件拷贝到$SPARK_HOME/conf/目录下。

点击以下链接,直接跳转到相应的子任务解析: