小白学苑-大数据技术博客

分享大数据领域的最新技术、实践经验和行业动态

什么是Parquet文件格式，为什么应该使用它?

2022-03-03 · 350

标签: Spark

Apache Parquet是大数据体系结构中的重要组件。自2013年首次引入以来，Apache Parquet作为一种免费和开放源代码的存储格式被广泛采用，用于快速分析查询。AWS在其数据湖导出声明中(2019年)，是这样描述Parquet的：“与文本格式相比，在Amazon S3中卸载速度快2倍，存储空间消耗少6倍”。还建议将数据转换为Parquet或ORC等柱状格式，以提高Amazon At...

PySpark读取Kafka主题失败：java.lang.NoClassDefFoundError

2022-02-25 · 178

标签: Spark

问题描述以Kafka作为流数据源，编写PySpark Structured Streaming流程序，读取Kafka指定主题，运行时失败，抛出如下异常信息： 20/06/14 12:19:18 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1) java.lang.NoClassDefFoundError...

现代数据湖存储层介绍

2022-02-17 · 195

标签: 数据湖

近年来，我们看到了数据湖新存储层的增加。2017年，优步宣布了Hudi，一种用于数据管道的增量处理框架。2018年，Netflix推出了Iceberg，一种管理超大云数据集的新表格格式。2019年，Databricks开放了Delta Lake，最初打算将ACID事务引入数据湖。这篇文章的目的是介绍这些引擎，并深入了解它们是如何运作的，以及它们之间的一些区别。关于所有这些框...

数据湖简介

2022-02-17 · 160

标签: 数据湖

数据湖提供了一个完整和权威的数据存储，可以为数据分析、商业智能和机器学习提供动力。什么是数据湖？数据湖是保存大量原始数据的中心位置。与将数据存储在文件或文件夹中的分层数据仓库相比，数据湖采用扁平架构和对象存储来存储数据。‍对象存储使用元数据标签和唯一标识符存储数据，便于跨分区查找和检索数据，提高性能。通过利用廉价的对象存储和开放格式，数据湖使许多应用...

在Spark3中无法通过spark.conf.set方法设置配置

2022-01-27 · 165

标签: Spark

问题描述在Spark 3中，当我们想要通过spark.conf.set方法设置配置参数时，如下： spark.conf.set("spark.executor.cores", "2") 这时，会出现如下错误信息： Scala： org.apache.spark.sql.AnalysisException: Cannot modify th...

热门标签

大数据 Spark Flink Hadoop 性能优化流处理数据分析

关于博客

这里是大数据技术博客专区，定期发布最新的技术文章、实践经验和行业动态，欢迎大家交流学习！