logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

Spark合并Hive ODS离线数据和HBase实时数据,并存入Hive DWD层

任务描述

抽取 ods 库中表 table4 最新分区的数据,并结合 HBase 中 table4 offline表中的数据合并抽取到 dwd 库中 fact table4 的分区表,分区字段为etl date 且值与 ods 库的相对应表该值相等,并添加 dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd modify_time 四列,其中dwd_insert_user、dwd_modify_user 均填写“userl”,dwd_insert_time、dwd_modify_time 均填写当前操作时间(年月日必须是今天,时分秒只需在比赛时间范围内即可),抽取 HBase 中的数据时,只抽取 XXXX 年 XX 月XX日的数据 (以 rowkey 为准),并进行数据类型转换。使用 hive cli 查询modified_time为XXXX年XX月XX号当天的数据,并按照id进行升序排序,将结果截图复制粘贴至客户端桌面[Release\模块 D 提交结果docx]中对应的任务序号下;“

任务分析

这是今年(2024年)各省的省赛中普遍出现的一个任务需求。该任务的实质是模拟实现大数据架构中应用Spark对离线链路数据(Hive ODS)和实时链路数据(HBase)实现T+1的数据合并。

在这个任务中,涉及以下技术点:

  • Spark + Hive整合。
  • Spark 读写Hive表。
  • ......

    ......

    抱歉,只有登录会员才可浏览!会员登录