logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2023河北省赛样题解析-离线数据处理_任务三:指标计算

任务描述

使用Scala编写spark工程代码,并计算相关指标。

注:在指标计算中,不考虑订单信息表中order_status字段的值,将所有订单视为有效订单。计算订单金额或订单总金额时只使用final_total_amount字段。需注意dwd所有的维表取最新的分区。

启动Hive Metastore服务

如果想要Spark能读写Hive中的数据表,需要访问Metastore服务。在终端中执行如下命令:

$ hive --service metastore

这将保持Hive Metastore服务一直运行,请勿关闭终端。如果要将其作为后台服务启动,则可以使用下面的命令:

$ nohup hive --service metastore &

这个命令将启动Hive Metastore服务,并在后台持续运行。

子任务1

子任务1描述

1、根据dwd层表统计每个省份、每个地区、每个月下单的数量和下单的总金额,存入MySQL数据库shtd_result的provinceeverymonth表中(表结构如下),然后在Linux的MySQL命令行中根据订单总数、订单总金额、省份表主键均为降序排序,查询出前5条,将SQL语句与执行结果截图粘贴至对应报告中;

< ......

......

抱歉,只有登录会员才可浏览!会员登录