PySpark SQL可视化
PySpark还没有任何绘图功能。如果想绘制一些内容,可以将数据从SparkContext中取出并放入“本地”Python会话中,在那里可以使用Python的任意一个绘图库来处理它。
对于PySpark SQL中的DataFrame,可以先将它转成Pandas的DataFrame,再应用Python绘图库进行绘制。
1. PySpark DataFrame转换到Pandas
在PySpark中,很容易通过一行代码将PySpark DataFrame转换为Pandas DataFrame,代码如下:
df_pd = df.toPandas()
在下面的示例中,演示了如何将PySpark DataFrame Row对象列表转换为Pandas DataFrame,代码如下:
from pyspark.sql import SparkSession
from pyspark.sql.functions import collect_list,struct
from pyspark.sql.types import *
from decimal import Decimal
import pandas as pd
# 构建SparkSession实例
spark = SparkSession.builder \
.master("spark://localhost:7077") \
.appName("pyspark rdd demo") \
.getOrCreate()
# List
data = [ ('Category A', 1, Decimal(12.40)),
('Category B', 2, Decimal(3 ......
......
抱歉,只有登录会员才可浏览!会员登录