小白学苑

让大数据学习更简单

视频名称

使用流数据源(1)

视频内容

您还未登录！(正式会员登录可观看)

视频简介

【PySpark原理深入与实战】配套精讲视频
PySpark结构化流提供了以下开箱即用的数据源：

(1) Kafka源：要求Apache Kafka的版本是0.10或更高版本。这是生产环境中最流行的数据源。
(2) 文件源：文件位于本地文件系统、HDFS或S3上。支持常用的文件格式，如文本、CSV、JSON、ORC和Parquet。
(3) Socket源：这仅用于测试目的。它从一个监听特定的主机和端口的socket上读取UTF-8数据。
(4) Rate源：这仅用于测试和基准测试。这是学习结构化流时使用的最简单的源。