PySpark SQL分析案例:电商订单数据分析

【示例】Northwind是一个最初由Microsoft创建的示例数据库,包含一个名为“Northwind Traders”的虚拟公司的销售数据,该公司从世界各地进口和出口特色食品。现要求通过分析该电商数据集,回答以下问题:

  • (1) 每个客户下了多少订单?
  • (2) 每个国家的订单有多少?
  • (3) 每月/年有多少订单?
  • (4) 每个客户的年销售总额是多少?
  • (5) 客户每年的平均订单是多少?

要回答以上问题,需要使用到其中的订单表和订单明细表。请按以下步骤操作。

(1) 首先构造一个SparkSession实例,代码如下:

from pyspark.sql import SparkSession
from pyspark.sql.functions import *

# 创建SparkSession的实例
spark = SparkSession.builder \
    .master("spark://localhost:7077") \
    .appName("pyspark sql demo") \
    .config("spark.hadoop.hive.exec.dynamic.partition", "true") \
    .config("spark.hadoop.hive.exec.dynamic.partition.mode","nonstrict") \
    .enableHiveSupport() \
    .getOrCreate()

(2) 加载订单数据集,代码如下:

< ......

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》