logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2024年重庆_甘肃_安徽等省职业院校技能大赛_大数据应用开发样题解析-模块D:离线数据处理-任务一:离线数据清洗

环境说明

Hive 的配置文件位于主节点/opt/module/hive-3.1.2/conf/

Spark 任务在Yarn 上用Client 运行,方便观察日志;

ClickHouse 的jdbc 连接端口8123,用户名/密码:default/123456

命令行客户端(tcp)端口9001;

建议使用gson 解析json 数据。

任务描述

编写Scala 工程代码, 将ods 库中表order_master、order_detail、coupon_info、coupon_use、product_browse、product_info、customer_inf、customer_login_log、order_cart、customer_level_inf、customer_addr 抽取到Hive 的dwd 库中对应表中。表中有涉及到timestamp 类型的,均要求按照yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-dd HH:mm:ss。

任务分析:因为本子任务需要使用Hive的dwd 库,所以请在Hive CLI命令行下先创建好该库:

hive> create database ss2024_ds_dwd;

本任务共有 ......

......

抱歉,只有登录会员才可浏览!会员登录