logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

GZ033 大数据应用开发赛项正式赛卷解析 - 任务B:离线数据处理_子任务一:数据抽取

环境说明:

服务端登录地址详见各任务服务端说明。

补充说明:

各节点可通过Asbru工具或SSH客户端进行SSH访问;

主节点MySQL数据库用户名/密码:root/123456(已配置远程连接);

Spark任务在Yarn上用Client运行,方便观察日志。

若Hudi中无数据,正常抽取

提示:在本卷中所示的ods、dwd层均为hudi中ods_ds_hudi、dwd_ds_hudi,不操作Hive中的数据

子任务一:数据抽取

子任务一描述:

编写Scala代码,使用Spark将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hudi的ods_ds_hudi库(路径为/user/hive/warehouse/ods_ds_hudi.db)的user_info、sku_info、base_province、base_region、order_info、order_detail中。(若ods_ds_hudi库中部分表没有数据,正常抽取即可)

子任务一分析:

任务描述中的”若ods_ds_hudi库中部分表没有数据,正常抽取即可“,我的理解是:

- 如果有些表有数据,则做 ......

......

抱歉,只有登录会员才可浏览!会员登录