使用Jupyter Notebook进行交互式分析

数据分析师最喜欢的一个交互式分析工具是Jupyter Notebook，因此也希望在应用Spark进行大数据分析时也使用Jupyter。下面我们就配置PySpark与Jupyter的组合。

有两种方法可以使PySpark在Jupyter Notebook中可用：

第一种方法更快，但是特定于Jupyter笔记本；第二种方法是一种更广泛的方法，可以在自己喜欢的IDE中使用PySpark。

请按以下步骤配置和启动Spark及Jupyter Notebook。

1）启动Spark集群：

$ cd ~/bigdata/spark-3.1.2
$ ./sbin/start-all.sh

2）指定驱动程序（driver）使用Jupyter Notebook。在终端窗口中，执行如下命令：

$ export PYSPARK_DRIVER_PYTHON="jupyter" 
$ export PYSPARK_DRIVER_PYTHON_OPTS="notebook --no-browser --ip=0.0.0.0"

注意，如果你是以root账户在进行操作，则还需要加 ......

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑