传统的数据基础架构建立在整个企业数据的单一、整体来源之上,无论是数据仓库,还是最近的数据湖。
企业开始意识到这种设计中的一些问题:
- 集中式团队的局限性:集中式数据团队不可能了解他们所服务的所有不同部门的数据需求。
- 无法为不同的部门提供服务:一个中央平台不可能足够灵活,以满足组织中不同部门的要求。
- 数据供应缓慢。集中式平台本质上是僵化的:因为它们被设置为在整个组织中执行标准操作。因此,数据供应速度缓慢,永远无法实现实时或按需供应。
数据网格是一种新的去中心化数据架构,它试图通过用多个数据域替换单个集中式数据源来解决上述问题,每个数据域由组织中的不同部门管理。
为了使数据网格如上所述发挥作用,它需要一个能够解决其分布式性质的数据交付系统。传统的基于复制的数据集成方法(如提取、转换和加载 (ETL) 流程)无法执行此功能,因为它们旨在将数据从多个数据源移动到单个存储库中。
相比之下,数据虚拟化非常适合数据网格。与 ETL 流程不同,它提供对数据的实时访问,而无需复制数据。
数据虚拟化的架构在启用数据网格方面非常强大:
- 数据虚拟化集中化的唯一数据是用于访问不同数据源的关键元数据。
- 此架构使企业能够从单个控制点对所有不同数据域实施治理和安全协议。
- 此架构还使企业能够在各个数据源之上实施高度定制的语义模型,这些模型实际上充当数据域,而无需更改底层数据。
- 这些语义模型可以轻松更改、开发或重新设计,同样无需更改底层数据。
- 数据虚拟化支持功能齐全的数据目录,这些目录不仅列出可用的数据,还可以以自助服务的方式提供对数据的实时访问。