视频课程:PySpark原理深入与编程实战
视频标题: 持久化RDD
发布时间:2025-11-27
视频描述
【PySpark原理深入与实战】配套精讲视频
PySpark中最重要的功能之一是跨操作在内存中持久化(或缓存)数据集。当持久化一个RDD时,每个节点在内存中存储它计算的任何分区,并在该数据集(或从该数据集派生的数据集)上的其他操作中重用它们。这使得后续的操作要快得多(通常超过10倍)。缓存是迭代算法和快速交互使用的关键工具。
课程章节 返回课程首页
-
Ch01 Spark架构与集群搭建
-
Ch02 开发和部署PySpark程序
-
Ch03 PySpark核心编程
-
Ch04 PySpark SQL编程(初级)
-
Ch05 PySpark SQL编程(高级)
-
Ch06 PySpark结构化流处理(初级)
-
Ch07 PySpark结构化流处理(高级)
-
ch08 PySpark大数据分析综合案例