logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2023贵州省赛样题解析-数据采集:离线数据采集

任务描述

编写Scala工程代码,将MySQL库中表table1的数据增量抽取到Hive的ods库中对应表table1中。

1、 抽取库中table1的增量数据进入Hive的ods库中表table1。根据ods.table1表中modified_time作为增量字段,只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段为etl_date,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.table1命令,将执行结果截图粘贴至对应报告中;

题目分析

作为样题,该子任务模糊了具体的表,代之以简单的表名table1,具体的表结构一无所知。推测在真实比赛题中,会明确表table1的结构描述(请参考“2023省赛专区”中离线数据采集部分)。为此,我们将改任务补充清晰如下:

1、抽取ds_db01库中order_master的增量数据进入Hive的ods库中表order_master,根据ods.order_master表中modified_time作为增量字段,只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段为etl_date,类型为String,且值为当前日期的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.order_master命令,将执行结果截图粘贴至对应报告中;

其中,order_master表位于PBCP2023平台上的MySQL中的ds_db01数据库中。 ......

......

抱歉,只有登录会员才可浏览!会员登录