开发赛题第10套_任务B：离线数据处理

抱歉，只有登录会员才可浏览！<a href='/member/login'>会员登录</a>

大数据应用开发赛题第10套任务B：离线数据处理子任务二：数据清洗

编写Scala代码，使用Spark将ods库中相应表数据全量抽取到Hudi的hudi_gy_dwd库（路径为/user/hive/warehouse/hudi_gy_dwd.db）中对应表中。表中有涉及到timestamp类型的，均要求按照yyyy-MM-dd HH:mm:ss，不记录毫秒数，若原数据中只有年月日，则在时分秒的位置添加00:00:00，添加之后使其符合yyyy-MM-dd HH:mm:ss。

子任务分析

大数据应用开发赛题第10套题的离线数据处理任务与其他几套题的任务相同，唯一区别就是将数据仓库Hive换成了数据湖工具Hudi。

经过测试，Spark与Hudi的集成，在spark-shell下执行最为简单方便。因此本示例在spark-shell下完成。

在开始本示例之前，请将下载的hudi-spark3.1-bundle_2.12-0.12.2.jar包拷贝到$SPARK_HOME/jars/目录下，将hive-site.xml配置文件拷贝到$SPARK_HOME/conf/目录下。

点击以下链接，直接跳转到相应的子任务解析：

查看子任务1
查看子任务2
查看子任务3
查看子任务4
......

抱歉，只有登录会员才可浏览！会员登录

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

大数据应用开发赛题第10套任务B：离线数据处理子任务二：数据清洗

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

大数据应用开发赛题第10套 任务B：离线数据处理 子任务二：数据清洗

大数据应用开发赛题第10套任务B：离线数据处理子任务二：数据清洗