logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2023湖北省赛样题解析-模块B:数据采集-任务一:离线数据采集

环境说明

服务端登录地址详见各模块服务端说明。

补充说明:各节点可通过Asbru 工具或SSH 客户端进行SSH 访问;

主节点MySQL 数据库用户名/密码:root/123456(已配置远程连接);

Hive 的配置文件位于主节点/opt/module/hive-3.1.2/conf/

Spark 任务在Yarn 上用Client 运行,方便观察日志;

建议使用gson 解析json 数据。

任务描述

编写Scala 工程代码,将MySQL 的db 库中表table1、table2、table3、table4、table5、table6、table7、table8、table9、table10、 table11 的数据增量抽取到Hive 的ods 库中对应表table1、table2、table3、table4、table5、table6、table7、table8、table9、table10、table11 中。

1.抽取db 库中table1 的增量数据进入Hive 的ods 库中表table1。根据ods.table1 表中modified_time 作为增量字段,只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段为etl_date,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli 执行show partitions ods.table1 命令,将执行结果截图粘贴至客户端桌面【Release ......

......

抱歉,只有登录会员才可浏览!会员登录