飙血推荐
  • HTML教程
  • MySQL教程
  • JavaScript基础教程
  • php入门教程
  • JavaScript正则表达式运用
  • Excel函数教程
  • UEditor使用文档
  • AngularJS教程
  • ThinkPHP5.0教程

数据网格简介

时间:2023-06-15  作者:电脑狂魔  

随着越来越多的团队开始寻找可以帮助他们释放系统和人员全部潜力的解决方案,去中心化架构开始变得越来越流行。无论是加密货币、微服务,还是 Git,去中心化都被证明是处理中心化瓶颈的有效方法。同样,分散数据控制的一种方法是使用数据网格。但它是什么,它有什么帮助呢?让我们仔细看看这个概念并回顾一下数据网格架构,以更好地理解它的好处。


企业中的数据挑战

组织在他们的数据之旅中已经走了很长一段路,这已经不是什么秘密了。然而,他们仍然面临着一系列挑战,这些挑战阻碍了他们充分利用数据的优势。这些挑战包括:  

诚信度

数据的可追溯性、质量和可观察性需要稳健的实施。重要的是要问自己一些重要的、困难的问题。这些包括:

  • 你能相信这些数据吗?

  • 您的数据文件是否完整?

  • 你有最新的文件吗?

  • 您的数据来源是否正确?


敏捷

变化是唯一不变的,大企业也是如此。数据资产很难跟上这些影响企业敏捷性的变化。以生成报告为例——这需要数周时间才能完成,而这在当今快节奏的世界中是一个相当大的时间框架。  

技能

为了跟上数据,整个员工队伍都应该具备专业技能。这是因为维护数据可能会变得非常昂贵,并且缺乏技能,瓶颈势必会非常频繁。 

生产率

生产力是另一个数据挑战。业务分析师和数据分析师花费高达 30-40% 的时间来寻找正确的数据集。同样,数据工程师将大部分时间花在弄清楚如何使用不同的来源创建统一的数据集。

所有权

建立数据集所有权也是一个挑战。很难确定所有者和谁可以足够信任以声明数据集可信。在大多数情况下,拥有数据平台的团队拥有数据的所有权,即使他们可能不理解数据。  

可发现性

只有少数组织能够利用他们的数据资产并建立数据市场,他们的消费者可以在其中探索不同的数据集并了解他们希望使用的数据集。


什么是数据网格?

数据网格概述。

数据网格概述


最好将数据网格理解为一种实践或概念,用于管理分布在去中心化或分布式网络中的大量数据。它还可以指代负责此功能的平台,甚至两者兼而有之。随着公司越来越依赖于存储大量数据、通过数据管道分发数据并利用这些数据的能力,为使用该数据创建有效的模式非常重要。这就是数据网格的用武之地。 

数据网格背后的想法是,引入更多技术无助于解决公司当今面临的数据挑战。相反,应对这些挑战的唯一方法是重新组织相关的工具、流程和人员。数据网格实质上创建了一种可复制的方法来管理公司生态系统中的不同数据源,并使其更容易被发现。同时,它确保消费者更快、更安全、更高效地访问数据。 

数据网格包括许多好处。这些包括:

  • 允许分散的数据操作,从而提高业务敏捷性、可扩展性和上市时间。

  • 采用数据网格架构的组织可以防止被锁定在一个数据产品或平台中。 

  • 采用自助服务模式,确保轻松访问集中式基础架构。这允许更快的 SQL 查询和数据访问。

  • 由于它分散了数据所有权,因此确保了团队之间的透明度。(相比之下,集中的数据所有权使数据团队严重依赖)。   


数据网格架构组件

数据网格架构涉及四个主要组件。让我们一一回顾。
4 数据网格原则

4 条数据网格原则(来源)


分散的数据所有权

该架构组件主要围绕相关人员展开,并要求通过分散分析数据并将其所有权从中央团队重新调整为领域团队来重塑单体数据结构。 

在数据网格中,一个非常熟悉数据资产的领域团队负责管理它,确保高质量的数据管理和治理。相比之下,在数据仓库反模式中,通才团队负责管理组织的所有数据,并且通常专注于数据仓库的技术方面,而不是数据的质量。

因此,实施数据网格的组织必须定义哪个数据集由哪个领域团队拥有。除此之外,所有团队都应该快速做出更改以保持其网格的数据质量。通过使以领域为中心的问责制成为可能,分散的数据所有权解决了许多与敏捷性、所有权和生产力相关的问题。 

例如,组织需要一段时间来响应市场,因为必须对许多 IT 系统进行更改才能进行任何业务更改。这就是为什么优先级不一致和团队协调不力会阻碍企业敏捷性的原因。考虑到数据源的快速增长和业务用例的激增,中央团队已成为瓶颈。然而,从单体架构到领域驱动的微服务,操作系统变得更加敏捷。数据网格可以为分析数据做同样的事情。     

数据消费者通常花时间寻找数据所有者、确定其可追溯性并解释其含义。结果,团队的整体生产力降低了。然而,权力下放让分析和运营世界更加紧密,并建立了可追溯性、所有权和清晰的解释,从而缩短了团队的周转时间。 

最后,所有权;在大多数情况下,数据所有者是未知的,这使得负责 ETL 的 IT 团队成为数据的所有者。中央 IT 团队通常充当中介——他们将消费者请求传递给生产者,但不被视为所有者,因为他们不生产数据,也不理解数据。将分析数据的所有权重新分配给正确的领域可以解决问题,因为这些领域是数据的生产者,也可以理解数据。 

数据即产品

识别域并建立所有权后,下一步就是停止将分析数据视为必须存储的资产,而是将其视为必须提供的产品。负责数据网格的团队发布数据,以便其他团队(即他们的内部客户)可以从中受益。 

这就是为什么领域需要停止将分析数据视为业务运营的副产品,而是将其视为一流的产品,拥有专门负责其可用性、可发现性、正常运行时间和质量的所有者,并像对待它一样对待它任何其他商业服务。因此,他们还应该应用不同的产品开发方面,使其以客户为中心、可靠、有用和有价值。您可以将负责数据网格的团队发布的数据产品视为微服务;唯一的区别是提供数据。     

将数据视为产品可以解决与生产力、敏捷性、可发现性和可信度相关的问题。随着可信度、可发现性和敏捷性的考虑,数据消费者的生产力会自动提高。让我们看看如何。

数据产品本质上是一个自治单元,具有自己的发布周期和功能路线图。这意味着数据团队不需要等待中央团队提供一些环境或数据,以便他们可以开始工作。反过来,建立可追溯性和真实性几乎不需要时间。同样,重新调整输入数据集的 SLO(服务水平目标)与用例的 SLO 所需的时间相对较少。

通过将数据所有权分配给域,(数据的)产品所有者负责数据产品。这意味着产品所有者应确保维护数据产品的安全性、可追溯性和质量,并通过 SLO 和正确的指标进行报告。 

最后,通过将数据视为一种产品,每个产品都是不言自明的,并在组织的数据市场上做广告和编目。相关文档概述了不同的可用性主题,并解释了与其他 SLO 和数据产品的关系。因此,消费者可以充分了解数据产品,这反过来又使他们能够就产品的使用做出明智的决定。     

自助服务平台

尽管将数据视为一种产品有很多好处,但它最终可能会增加整体运营成本,因为它涉及许多规模小但技能高超的团队和众多独立的基础设施。此外,如果这些高技能团队没有得到适当优化,运营成本将进一步上升。这就是数据网格架构的第三个组件发挥作用的地方——自助服务平台。

尽管数据网格围绕分散数据管理的理念展开,但其最重要的方面之一是集中位置或中央数据基础架构,可以促进数据产品生命周期,组织的所有成员都可以轻松找到他们需要的数据集. 这个中央基础设施应该支持租赁,以便促进自治。它还应该是自助式的,并提供多种开箱即用的工具。  

历史数据和实时数据都应该可用,并且应该有一些自动访问数据的方法。虽然没有满足此原则的即插即用工具,但可以通过 wiki、UI 或 API 来实现。 

重要的是自助服务工具应该经过深思熟虑地构建,并且必须减少数据产品团队的认知负担。他们还应该对较低级别的技术组件进行抽象,以实现数据产品标准化和更快的开发。自助服务的另一个重要部分是数据产品管理,包括删除、添加和更新数据产品。另外,管理和进入应该尽可能简单,以便于使用。

与其他组件一样,自助服务平台也解决了与技能、拥有成本和敏捷性相关的几个问题。由于自助服务平台消除了技术复杂性,因此对专家和通才的需求减少,足以达到目的。因此,无需投资于高技能团队。拥有成本在基础设施方面也有所降低,因为它是集中配置的。最后,自治数据产品团队可以直接使用自助服务平台;他们不需要依赖中央基础设施团队为他们提供基础设施资源和数据。这加快了开发周期。     

联合计算治理

上面讨论的三个数据网格架构原则解决了组织面临的大部分数据挑战。但是,由于大多数数据产品都在不同的领域运行,您如何才能协调数据呢?答案在于最后一个架构组件:联邦计算,这是对传统中央治理实施方式的重大改变。前者改变了团队的组织方式和基础设施支持治理的方式。在联邦治理中,数据产品所有者管理不同的方面,例如本地访问策略、数据建模、数据质量等。这是一个很大的转变,从实施规范数据到模型到专门为满足数据产品的需求而构建的较小模型。

治理应分为两种:局部治理和全球治理。前者在数据产品本地,定义本地流程、框架和治理策略,并负责它们的实施和遵守。这与制定政策并负责验证和遵守的中央管理机构相去甚远。 

同时,全球治理涉及一个跨职能机构,由技术、法律、安全和基础设施等不同专业的专家组成,负责制定政策。地方管理机构负责实施和持续遵守。  

总而言之,通过将联合治理应用于您的数据网格,团队可以始终使用来自不同域的可用数据。 

所有这四项原则对于在组织中实施数据网格都很重要。当然,执行的程度可以不同,但​​每个原则都有其优点并克服了其他原则的缺点。请记住,网格越大,您可以从数据中产生的价值就越大。 


标签:数据网格
湘ICP备14001474号-3  投诉建议:234161800@qq.com   部分内容来源于网络,如有侵权,请联系删除。