文件移除

Delta Lake进行了版本控制，因此可以轻松地恢复或访问到数据的旧版本。因此，在某些情况下，Delta lake需要存储多个版本的数据才能实现回滚功能。

存储相同数据的多个版本可能成本很高，因此Delta Lake包含了一个vacuum命令，可以删除数据的旧版本（任何比指定的保留期限早的数据）。下面解释如何使用vacuum命令及其适用场景。

假设要使用下面的people.csv文件来构造一个Delta Lake表，文件内容如下：

first_name,last_name,country
miguel,cordoba,colombia
luisa,gomez,colombia
li,li,china
wang,wei,china
hans,meyer,germany
mia,schmidt,germany

假设将该数据文件存储到HDFS的/data/data_lake/delta_lake/目录下。

首先加载people.csv文件内容到DataFrame中，代码如下：

val path = "/data/data_lake/delta_lake/people.csv"
val df = spark
  .read
  .option("header", "true")
  .option("charset", "UTF8")
  .csv(path)

df.printSchema()
df.show()

执行以上代码，输出内容如下：

root
 |-- first_name: string (nullable = true)
 |-- last_name: string (nullable = t ......
          ......

          
            
            
              抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

文件移除