分享大数据领域的最新技术、实践经验和行业动态

标签: 数据治理

在每个企业组织中,可能有多个源系统来满足不同的需求。根据组织的规模,源系统可能从一个到1000多个不等。组织通常将数据集中在一个地方,进行集成,并从数据中获取价值,例如360度的客户、产品视图,等等。要实现这一点,需要有一个好的数据治理框架。 数据治理框架可以帮助企业组织以适当的方式对数据进行分组,管理数据,确保数据质量,验证数据的一致性和完整性,从而提高决策能力,并以适当的方式保护数...

标签: Hadoop

一、问题描述 Hadoop 3.x.x默认支持JDK8/11,但是许多大数据组件已经默认支持JDK17,例如,Spark 4.0。因此,当部署JDK17 + Hadoop 3.x.x + Spark 4.0环境时,因为Hadoop 3.x.x不支持JDK17,这时在启动YARN集群时,会失败。查看相关日志,会发现如下的错误信息: Caused by: java.lang.refl...

标签: Flink

Flink APIs的演变 随着Flink 2.0的临近,社区正计划改进Apache Flink的API。 1) 社区计划在Flink 2.0中删除一些长期被弃用的API,以使Flink运行得更快,包括: (1) DataSet API, 所有的Scala APIs, 遗留的SinkV1 API, 遗留的TableSource/TableSink API。 ...

标签: Flink

FLIP-265 Deprecate and remove Scala API support 动机 Apache Flink提供了使用DataStream和表API构建Flink应用程序的API。这些API以Java和Scala语言提供。Python API在底层使用Java API。 随着时间的推移,Flink社区的主要焦点已经转移到Java API上,而Flink中...

标签: Hadoop

前端框架vue.js系列教程: 什么是node.js? Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境。Node.js使用JavaScript进行编程,运行在JavaScript引擎上(V8)。 简单的说 Node.js 就是运行在服务端的 JavaScript,利用JavaScript在服务端进行编程。Node.js...

热门标签
大数据 Spark Flink Hadoop 性能优化 流处理 数据分析
关于博客

这里是大数据技术博客专区,定期发布最新的技术文章、实践经验和行业动态,欢迎大家交流学习!