示例:使用Spark查找中位数和分位数
Spark中的中位数和分位数计算都可以使用DataFrame API或Spark SQL来执行。可以使用内置函数,如approxQuantile、percentile_approx、sort和selectExpr来执行这些计算。
在本教程中,我们将通过一些示例来学习如何使用Spark查找中位数和分位数。
下面我们创建一个包含产品销售信息的样例DataFrame,并尝试使用它计算销售额的中位数和分位数。
1、创建样例DataFrame
创建一个示例DataFrame,它包含两列: Product 和 Price。这个数据集表示销售信息,其中每行包含产品名称及其相应的价格。
// 导入依赖
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
// 创建DataFrame
val data = Seq(
("Product A", 100.0),
("Product B", 150.0),
("Product C", 200.0),
("Product D", 125.0),
("Product E", 180.0),
("Product F", 300.0),
("Product G", 220.0),
("Product H", 170.0),
("Product I", 240.0),
("Product J", 185.0)
)
val df = spark.createDataFrame(data).toDF("Product", "Price")
df.printSchema()
df.show()
执行以上代码,输出内容如下 ......
......
抱歉,只有登录会员才可浏览!会员登录