1.3 原则

4个简单的原则体现了Data Mesh逻辑架构和运作模式的基础。这些原则旨在帮助我们实现Data Mesh的目标:在大规模的数据中增加价值,随着组织的增长保持敏捷性,以及在复杂多变的业务环境中拥抱变化。

下面是这些原则的简单概要。

1.3.1 领域所有权

把分析型数据的所有权分散到与数据最接近的业务领域——无论是数据源还是它的主要消费者。根据数据所代表的业务领域从逻辑上对(分析型)数据进行分解,并独立地管理面向领域数据的生命周期。

在架构和组织上对齐业务、技术和分析型数据。

领域所有权的动机是:

•横向扩展数据分享的能力与组织增长的轴线一致:增加的数据源数量、数据源数量和数据用例多样性。

•通过本地化业务领域的变更来优化持续变更。

•通过减少跨团队的同步,以及消除数据团队、数据仓库和数据湖架构的集中化瓶颈来实现敏捷性。

•通过缩小数据的真实来源与用于分析用例的时间和地点之间的差距,提高数据业务的真实性。

•通过移除复杂的中间数据流水线,提高分析和机器学习解决方案的韧性。

1.3.2 数据即产品

有了这个原则,面向领域的数据就可以作为产品直接分享给数据用户(数据分析师、数据科学家等)。

数据即产品遵循一系列可用性特征:

•可发现性

•可寻址性

•可理解性

•可信赖性和真实性

•原生可访问性

•互操作性和可组合

•自身价值

•安全性

数据产品提供了一组定义明确且易于使用的数据共享契约。每个数据产品都是自治的,其生命周期和模型独立于其他产品进行管理。

数据即产品引入一个新的逻辑架构单元,称为数据量子。它控制和封装了作为产品自治地分享数据时需要的所有结构化组件——数据、元数据、代码、策略,以及基础设施依赖的声明。

数据即产品的动机如下:

•通过改变团队与数据的关系,消除了创建面向领域的数据孤岛的可能性。数据成为团队共享的产品,而不是收集后成为孤岛。

•通过简化点对点、无摩擦地探索和使用高质量数据的体验,创建数据驱动的创新文化。

•通过隔离数据产品间的构建时间和运行时间,以及明确定义的数据共享契约,创建变更韧性,使得一个数据的变更不会影响其他数据的稳定性。

•通过跨组织边界共享和使用数据,从数据中获取更高的价值。

1.3.3 自助数据平台

这个原则导向了新一代的自助数据平台服务,它使得各个领域的跨职能团队能够自主地共享数据。平台服务的核心是消除从数据源到数据消费的端到端数据共享旅程中的摩擦。平台服务管理独立数据产品的全生命周期。它们管理着一个相互关联的数据产品的可靠网格,提供了网格级别的体验,例如在网格上显示涌现的知识图谱和网格中的沿袭。该平台不仅简化了数据用户探索、访问和使用数据产品的体验,还简化了数据提供者构建、部署和维护数据产品的体验。

自助数据平台的动机如下:

•减少去中心化的数据所有权的总成本。

•抽象数据管理的复杂性,降低领域团队在管理数据产品的端到端生命周期时的认知负荷。

•动员更多的开发人员(技术通才)从事数据产品开发工作,减少对专业化的需求。

•自动化治理策略,为所有数据产品创建安全与合规标准。

1.3.4 联邦计算治理

这个原则创建了一个基于联邦决策制定和责任结构的数据治理操作模型,包含由领域代表、数据平台和行业专家(法务专家、合规专家、安全专家等)组成的团队。这个操作模型创建了一个激励和责任结构,平衡了领域的自主性和敏捷性与网格的全局互操作性。治理执行模型高度依赖平台服务对每个数据产品在细粒度级别的策略的编纂和自动化。

联邦计算治理的动机如下:

•从独立但可互操作的数据产品的聚合性和相关性中获得高阶价值的能力。

•消除面向领域的去中心化的不良后果:领域的不兼容性和失去连接。

•使得在跨分布式数据产品组成的网格中实施跨领域治理变得可行。

•减少领域和治理功能之间的人工同步开销。