小白学苑-PySpark RDD可视化 - PySpark原理深入与编程实战

发布日期：2022-03-14

PySpark RDD可视化

PySpark RDD还没有任何绘图功能。如果想绘制一些内容，可以将数据从SparkContext中取出并放入“本地”Python会话中，在那里可以使用Python的任意一个绘图库来处理它。对于RDD，调用.collect()方法，将数据返回到driver再绘制。

请看下面的示例。

from pyspark.sql import SparkSession
import random
import matplotlib
import matplotlib.pyplot as plt

# 构建SparkSession和SparkContext实例
spark = SparkSession.builder \
   .master("spark://xueai8:7077") \
   .appName("pyspark rdd demo") \
   .getOrCreate()

sc = spark.sparkContext

# 创建一个包含100个随机数的RDD
x = [random.normalvariate(0,1) for i in range(100)]
rdd = sc.parallelize(x)

# 绘制RDD中的数据
num_bins = 50
n, bins, patches = plt.hist(rdd.collect(), num_bins, density=1, facecolor='green', alpha=0.5)

执行以上代码，执行结果如下所示：

课程章节返回课程首页

Ch01 Spark架构与集群搭建
Ch02 开发和部署PySpark程序
Ch03 PySpark核心编程
Ch04 PySpark SQL编程(初级)
Ch05 PySpark SQL编程(高级)
Ch06 PySpark结构化流处理(初级)
Ch07 PySpark结构化流处理(高级)
ch08 PySpark大数据分析综合案例
- 某招聘网站招聘大数据分析案例

PySpark RDD可视化

课程章节 返回课程首页

课程章节返回课程首页