2023年职业院校技能大赛(国赛)-大数据应用开发赛项正式赛卷解析 - 任务B：离线数据处理

抱歉，只有登录会员才可浏览！<a href='/member/login'>会员登录</a>

GZ033 大数据应用开发赛项正式赛卷解析 - 任务B：离线数据处理_子任务一：数据抽取

环境说明：

服务端登录地址详见各任务服务端说明。

补充说明：

各节点可通过Asbru工具或SSH客户端进行SSH访问；

主节点MySQL数据库用户名/密码：root/123456（已配置远程连接）；

Spark任务在Yarn上用Client运行，方便观察日志。

若Hudi中无数据，正常抽取

提示：在本卷中所示的ods、dwd层均为hudi中ods_ds_hudi、dwd_ds_hudi，不操作Hive中的数据

子任务一：数据抽取

子任务一描述：

编写Scala代码，使用Spark将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hudi的ods_ds_hudi库（路径为/user/hive/warehouse/ods_ds_hudi.db）的user_info、sku_info、base_province、base_region、order_info、order_detail中。(若ods_ds_hudi库中部分表没有数据，正常抽取即可)

子任务一分析：

任务描述中的”若ods_ds_hudi库中部分表没有数据，正常抽取即可“，我的理解是：

- 如果有些表有数据，则做 ......

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

GZ033 大数据应用开发赛项正式赛卷解析 - 任务B：离线数据处理_子任务一：数据抽取

子任务一：数据抽取