2024年职业院校技能大赛国赛(中职组)_大数据应用与服务赛项_样题解析-模块二:数据获取与处理-任务三:数据统计
本任务使用MapReduce程序对酒店经营数据进行统计。
子任务1:统计每个酒店的预订房间总数和入住客户总数
子任务1描述
1)将hotel.csv文件上传至HDFS目录/hotel中。
2)编译打包MapReduce程序,并将代码部署在Hadoop平台上运行,将程序运行结果保存到HDFS目录/result1下。
3)读取HDFS目录/result1的数据,将该数据复制粘贴至对应报告中。
子任务1分析
该任务的要求实际上是使用MapReduce程序实现group by聚合统计操作。
但是,该任务说明中并没有给出输出结果的格式。考虑到处理的是酒店经营数据,因此我们自行设定输出结果的格式,并用逗号作为字段间的分隔符。
子任务1实现
1)”将hotel.csv文件上传至HDFS目录/hotel中“的参考命令:
# hdfs dfs -put hotel.csv /hotel/
2)启动IDEA,新建一个Maven项目。
3)打开项目的pom.xml文件,增加相应的依赖项,如下:
<?xml version="1.0" encoding="UTF-8"?> <p ............
您尚未登录!(正式会员登录可下载)