logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

工作流调度工具_Azkaban简介与安装

为什么需要工作流调度工具?

一个完整的大数据分析系统,通常都是由大量任务单元组成:shell 脚本程序、Java 程序、MapReduce 程序、Hive 脚本、Spark程序等。各任务单元之间存在时间先后及前后依赖关系,所有的任务单元及其之间的依赖关系组成了复杂的工作流。

例如,公司可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:

  • 通过Hadoop先将原始数据上传到HDFS上(HDFS的操作);
  • 使用MapReduce对原始数据进行清洗(MapReduce的操作);?
  • 将清洗后的数据导入到hive表中(hive的导入操作);?
  • 对Hive中多个表的数据进行JOIN处理,得到一张hive的明细表(创建中间表);
  • 通过对明细表的统计和分析,得到结果报表信息(hive的查询操作);

一般来说,简单的任务调度,可以直接使用Linux的crontab来定义。而复杂的工作流管理涉及到很多问题,比如:

  • 如何定时调度某个任务?
  • 如何在某个任 ......

    ......

    抱歉,只有登录会员才可浏览!会员登录