logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2024年职业院校技能大赛国赛(中职组)_大数据应用与服务赛项_样题解析-模块二:数据获取与处理-任务三:数据统计

本任务使用MapReduce程序对酒店经营数据进行统计。

子任务1:统计每个酒店的预订房间总数和入住客户总数

子任务1描述

1)将hotel.csv文件上传至HDFS目录/hotel中。

2)编译打包MapReduce程序,并将代码部署在Hadoop平台上运行,将程序运行结果保存到HDFS目录/result1下。

3)读取HDFS目录/result1的数据,将该数据复制粘贴至对应报告中。

子任务1分析

该任务的要求实际上是使用MapReduce程序实现group by聚合统计操作。

但是,该任务说明中并没有给出输出结果的格式。考虑到处理的是酒店经营数据,因此我们自行设定输出结果的格式,并用逗号作为字段间的分隔符。

子任务1实现

1)”将hotel.csv文件上传至HDFS目录/hotel中“的参考命令:

# hdfs dfs -put hotel.csv /hotel/

2)启动IDEA,新建一个Maven项目。

3)打开项目的pom.xml文件,增加相应的依赖项,如下:

<?xml version="1.0" encoding="UTF-8"?>
<p ......
                                
                                

......

您尚未登录!(正式会员登录可下载)

会员登录