使用Zeppelin进行交互式分析

Apache Zeppelin是一款基于Web的NoteBook,支持交互式数据分析。使用Zeppelin,可以使用丰富的预构建语言后端(或解释器)制作精美的数据驱动、交互式和协作文档。目前,Apache Zeppelin支持Apache Spark、Python、JDBC、Markdown和Shell等多种解释器。

特别是,Apache Zeppelin提供了内置的Apache Spark集成。我们不需要为它构建单独的模块、插件或库。Apache Zeppelin与Spark集成,提供了如下功能:

  • 自动注入SparkContext和SQLContext;
  • 从本地文件系统或maven存储库加载运行时jar依赖项;
  • 取消作业并显示进度。

Apache Zeppelin专注于企业级应用,Zeppelin Notebook可以满足以下企业用户以下需求:

  • 数据摄取
  • 数据发现
  • 数据分析
  • 数据可视化与协作

接下来,我们学习如何安装Zeppelin和配置Zeppelin解释器,并演示如何使用Zepplin Notebook作为Spark的交互式数据分析工具进行大数据的分析和数据可视化。

下载zeppelin安装包

Apache Zeppelin的下载地址为:http://zeppelin.apache.org/download.html。请选择图中所示的版本:

会员登录


《Spark原理深入与编程实战》