视频名称

使用流数据源(1)

视频内容

您还未登录!(正式会员登录可观看)

会员登录

视频简介

【PySpark原理深入与实战】配套精讲视频
PySpark结构化流提供了以下开箱即用的数据源:

  • (1) Kafka源:要求Apache Kafka的版本是0.10或更高版本。这是生产环境中最流行的数据源。
  • (2) 文件源:文件位于本地文件系统、HDFS或S3上。支持常用的文件格式,如文本、CSV、JSON、ORC和Parquet。
  • (3) Socket源:这仅用于测试目的。它从一个监听特定的主机和端口的socket上读取UTF-8数据。
  • (4) Rate源:这仅用于测试和基准测试。这是学习结构化流时使用的最简单的源。