数据治理2:数据架构

发布时间:2025-12-29 | 作者:苏卡尼亚·科纳塔姆


数据治理是由具有不同角色和职责的人员协作创建的框架,这些人员致力于建立流程、策略、标准和度量,以实现组织的目标。这些目标的范围可以从为企业提供可信数据到开发用于评估业务性能的准确分析、遵守法规遵从性、保护数据、确保数据隐私以及启用数据管理生命周期。

接下来我们将描述数据治理的重要领域。

数据架构

什么是数据架构?

数据架构是组织中的一个基本支柱,它展示了一个集成视图的蓝图,该视图包含上图中所示的不同数据治理规程。

数据架构以设计的形式描述业务的总体策略。它突出了策略的需求,例如数据源和各种数据点。数据体系结构有助于演示来自不同源系统的不同数据集应该如何进行数据集成。

数据架构显示了不同级别数据抽象的集成视图,例如用于业务分析的原始数据、治理数据、主数据和聚合数据。

数据架构还解释了如何管理数据。这可以包括如何获取、存储、保护、处理、归档和删除数据。

数据架构类型

有多种类型的数据架构,可以根据成本、性能、可靠性和可用性等几个参数选择合适的模型。业界使用的最突出的数据架构模型有:

  • 集中式数据架构
  • 分布式架构
  • 数据湖(Data Lake)架构
  • 湖仓一体(Lakehouse)架构
  • 事件驱动(Event-Driven)架构
  • 联邦式(Federated)架构
  • 微服务(Microservice)架构
  • 混合(Hybrid)架构
  • 数据编织(Data Fabric)架构
  • 数据网格(Data Mesh)架构 Architecture

我们将介绍最常用的前三种体系结构。

集中式数据架构

在这种类型的体系结构中,数据存储在集中的位置,例如集中的数据仓库,所有源系统都集成在这里。从那里,根据已建立的策略和访问控制提供数据访问。在下图中,集中式数据模型以集成的方式使用来自不同位置的数据填充。

集中式数据架构

使用这种架构模型的一些优点是:

  • 数据可在单一位置获得,使访问和协调数据更加容易。
  • 与其他方法相比,这种方法具有更少的数据冗余,因为所有数据都存储在一个地方。
  • 与其他体系结构相比,实现的成本更经济。
  • 数据一致性、转换、安全性等更容易实现。

一些缺点是:

  • 如果有很多数据使用者,这个模型可能会导致数据流量,从而导致性能问题。
  • 如果在集中式系统中出现系统故障,那么整个系统都会受到影响。
  • 与其他位置共享数据可能存在法规或特定限制。

分布式架构

在分布式架构中,集中的数据将存储在多个位置,靠近该位置的系统将表现良好。在这种类型的体系结构中,为了保持数据的一致性和准确性通常执行数据复制。在下图中,标准数据模型被复制到三个位置,数据在各自位置附近被摄取和使用。来自这三个位置的数据已被同步,以使它们在所有位置都可用。

分布式数据架构

其优点和缺点与集中式数据体系结构模型相似,因为这两种模型都严重依赖于集中式方法。

这些优点包括:

  • 数据可在单一位置获得,使访问和协调数据更加容易。
  • 与其他方法相比,这种方法具有较少的数据冗余,因为所有数据都存储在一个地方。
  • 与其他体系结构相比,实现的成本是经济的。
  • 数据一致性、转换、安全性等更容易实现。

缺点有:

  • 当考虑集中式数据库时,数据流量会更高。
  • 如果在集中式系统中出现系统故障,那么整个系统都会受到影响。
  • 如果在与其他国家共享数据方面有任何监管或具体限制,我们就不能使用这种模式。

数据湖架构

在数据湖架构中,所有数据源都以原始数据格式存储在一个位置中。该模型通常可以帮助数据科学家和分析师探索隐藏的数据点,并且可以灵活地设计不同的ML模型和分析。这种架构通常部署在云存储服务中,如S3、Azure BLOB,以及云服务提供商(如AWS、Azure、GCP等)提供的云存储中。

数据湖架构

优点:

  • 数据湖体系结构允许存储不同的数据类型,例如结构化、半结构化和非结构化数据。
  • 该模型允许存储原始数据以执行数据探索和机器学习。
  • 这种架构是可扩展的,可以存储非常大的数据集。
  • 由于易于扩展这两个组件,因此在该体系结构中数据存储和计算是解耦的。
  • 可扩展性使其成为一种经济有效的解决方案架构。
  • 这种架构支持高级分析,比如机器学习。

缺点:

  • 如果没有适当的治理,该模型可能会导致数据孤岛。
  • 数据湖存在数据安全和隐私威胁。
  • 在这个模型中,数据摄取、管理和执行模式是复杂的。

小结

本文的核心要点如下:

  • 在集成来自不同源系统的数据时,需要一个健壮的数据治理框架。
  • 集中式数据架构利用一个集中的位置来集成不同的源系统。
  • 分布式数据体系结构模型在不同位置使用集中式机制。它与集中式数据体系结构模型不同,因为在该模型中有多个存储数据的位置。
  • 数据湖架构模型允许以原始的原始格式存储数据,并有助于数据探索。
返回博客列表