logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2023江苏省赛样题解析-数据采集与实时计算_任务一:实时数据采集

编写Scala工程代码,使用Flink消费Kafka中Topic为order的数据并进行相应的数据统计计算。

任务描述

1、在Master节点使用Flume采集实时数据生成器某端口的socket数据,将数据存入到Kafka的Topic中(topic名称为order,分区数为4),将Flume的配置截图粘贴至对应报告中;

2、Flume接收数据注入kafka 的同时,将数据备份到HDFS目录/user/test/flumebackup下,将备份结果截图粘贴至对应报告中。

任务分析

作为“考前划重点”的样题,该任务描述中简化和模糊了需求说明。

可以将该任务中的两个子任务当作一个任务完成,即Flume采用多路复用模式,在将接收的数据注入Kafka的同时,将数据也输出到HDFS中。其实现原理如下图所示:

由于任务描述中没有说明Socket端口号,这里假定使用10050端口。

技术参考1:安装Apache Flume

技术参考2:Flume集成Kafka

......

......

抱歉,只有登录会员才可浏览!会员登录