视频课程:PySpark原理深入与编程实战
视频标题: 使用流数据源(1)
发布时间:2025-11-27
视频描述
【PySpark原理深入与实战】配套精讲视频
PySpark结构化流提供了以下开箱即用的数据源:
- (1) Kafka源:要求Apache Kafka的版本是0.10或更高版本。这是生产环境中最流行的数据源。
- (2) 文件源:文件位于本地文件系统、HDFS或S3上。支持常用的文件格式,如文本、CSV、JSON、ORC和Parquet。
- (3) Socket源:这仅用于测试目的。它从一个监听特定的主机和端口的socket上读取UTF-8数据。
- (4) Rate源:这仅用于测试和基准测试。这是学习结构化流时使用的最简单的源。
课程章节 返回课程首页
-
Ch01 Spark架构与集群搭建
-
Ch02 开发和部署PySpark程序
-
Ch03 PySpark核心编程
-
Ch04 PySpark SQL编程(初级)
-
Ch05 PySpark SQL编程(高级)
-
Ch06 PySpark结构化流处理(初级)
-
Ch07 PySpark结构化流处理(高级)
-
ch08 PySpark大数据分析综合案例