分享大数据领域的最新技术、实践经验和行业动态

标签: Spark

Apache Parquet是大数据体系结构中的重要组件。自2013年首次引入以来,Apache Parquet作为一种免费和开放源代码的存储格式被广泛采用,用于快速分析查询。AWS在其数据湖导出声明中(2019年),是这样描述Parquet的:“与文本格式相比,在Amazon S3中卸载速度快2倍,存储空间消耗少6倍”。还建议将数据转换为Parquet或ORC等柱状格式,以提高Amazon At...

标签: Spark

问题描述 以Kafka作为流数据源,编写PySpark Structured Streaming流程序,读取Kafka指定主题,运行时失败,抛出如下异常信息: 20/06/14 12:19:18 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1) java.lang.NoClassDefFoundError...

标签: 数据湖

近年来,我们看到了数据湖新存储层的增加。2017年,优步宣布了Hudi,一种用于数据管道的增量处理框架。2018年,Netflix推出了Iceberg,一种管理超大云数据集的新表格格式。2019年,Databricks开放了Delta Lake,最初打算将ACID事务引入数据湖。 这篇文章的目的是介绍这些引擎,并深入了解它们是如何运作的,以及它们之间的一些区别。关于所有这些框...

数据湖简介

2022-02-17 · 42
标签: 数据湖

数据湖提供了一个完整和权威的数据存储,可以为数据分析、商业智能和机器学习提供动力。 什么是数据湖? 数据湖是保存大量原始数据的中心位置。与将数据存储在文件或文件夹中的分层数据仓库相比,数据湖采用扁平架构和对象存储来存储数据。‍对象存储使用元数据标签和唯一标识符存储数据,便于跨分区查找和检索数据,提高性能。通过利用廉价的对象存储和开放格式,数据湖使许多应用...

标签: Spark

问题描述 在Spark 3中,当我们想要通过spark.conf.set方法设置配置参数时,如下: spark.conf.set("spark.executor.cores", "2") 这时,会出现如下错误信息: Scala: org.apache.spark.sql.AnalysisException: Cannot modify th...

热门标签
大数据 Spark Flink Hadoop 性能优化 流处理 数据分析
关于博客

这里是大数据技术博客专区,定期发布最新的技术文章、实践经验和行业动态,欢迎大家交流学习!