视频名称

RDD编程案例_合并小文件

视频内容

视频简介

【PySpark原理深入与实战】配套精讲视频
在使用Hadoop时,经常会遇到小文件问题。当系统中有大量小文件时,读写这些小文件会遇到严重的性能问题。在PySpark中,使用SparkContext的wholeTextFiles()方法和colleasc()方法,可以实现对小文件的合并。