数据湖策略成功的关键因素

blog-image

数据湖结合了对象存储的灵活性与云平台的可扩展性和敏捷性,日益成为受企业青睐的数据存储库选择。无论您选择 Amazon Web Services (AWS) 的 AWS S3 还是 Microsoft Azure 的 ADLS 进行对象存储,具备灵活性和开放性特征的数据湖都能让组织存储更多信息,应对更多分析应用场景。

但是,仅仅因为您能轻松摄取和存储所有内容,并不意味着您能进行有效管理并快速实现价值。数据湖虽然解决了以往与数据存储相关的很多问题,但也带来了新挑战。在大型企业中尤其如此,因为在此类企业中,数据湖必须与现有的数据存储库配合使用。

Denodo 看到了数据湖的巨大潜在价值,也从客户那里了解到了有关数据湖的制约和限制。

因此,最新版本 的 Denodo 平台将直面其中一些挑战。这个最新版本最重要的特点是加入了嵌入式 数据湖 SQL 引擎,它将是 Denodo 平台未来版本不可或缺的组成部分。使用高度可扩展、灵活的 MPP(大规模并行处理)SQL 数据湖引擎扩展我们市场领先的数据管理平台后,我们相信我们能够提供数据湖策略取得成功的所有必要因素,帮助客户更快实现业务价值。

快速 SQL 访问

数据湖是大型存储库,用于以原生格式存储原始、结构化和非结构化数据文件。但是,虽然数据湖极为灵活且可扩展,但数据使用者如果不去访问和使用这些数据,就无法通过这些数据实现任何业务价值。尽管数据湖可以支持不同类型的工作负载,但大部分数据湖使用者仍重点关注分析工作负载,并且强烈倾向于将 SQL 作为查询语言。因此,拥有可扩展的数据湖 SQL 引擎,在数据湖之上支持快速、可靠的 SQL 查询,是大多数组织必须克服的第一个障碍。

这种新型嵌入式数据湖 SQL 引擎Presto 提供支持,Presto 是一种下一代分布式查询引擎,它克服了以往的数据湖查询引擎的一些缺点。它不仅在当今一些大规模公司(如 Facebook 和 Twitter)中使用,而且还得到了充满活力的强大开源社区的支持。我们非常高兴能将 Presto 的强大功能带给我们的客户,并为 Presto 社区做出贡献。

这种新型嵌入式数据湖查询引擎是一种高度可扩展的高性能 SQL 引擎,用于访问数据湖数据。我们还添加了多种图形用户界面组件,这些组件通过自检使浏览数据湖变得极其容易,用户无需专业知识或技能即可轻松注册底层文件。

上面的录屏视频突出显示了用户可以毫不费力地配置数据湖源(在本示例中为 AWS S3)、浏览整个存储层次结构(在本示例中为 S3 存储桶),并将数据湖文件(在本示例中为“tpcds_1.customer”)注册为结构化表视图以便于 SQL 访问。拖放界面极大简化了这一过程,数据使用者可在数分钟内查询数据湖文件。

虽然拥有易于使用、可扩展的数据湖 SQL 引擎至关重要,但它还远不足以确保能够获得采用和取得成功。Denodo 的独特之处在于,能将高性能数据湖 SQL 引擎与成熟、可靠的逻辑数据编织平台结合起来。通过这种方式,我们可以提供一种功能强大的数据湖引擎,同时克服了数据湖的其他缺点,如数据发现和协作。

包含嵌入式数据湖引擎的 Denodo 平台

数据发现和协作

数据湖(通常称为“数据沼泽”)可能是包含大量有用和不太有用数据的巨大空间。因此,强大的数据发现功能非常重要。Denodo 数据目录提供了在数据湖中搜索和发现数据的有效方法。使用者不仅可以通过浏览语义对象(类别、标签)或通过类似谷歌的搜索功能找到所需的数据,而且目录的内置人工智能 (AI) 功能甚至可以推荐用户可能感兴趣的数据湖资产。

通过简化数据目录形成和数据预配置的过程,我们希望将重点从收集数据转移到连接和使用数据湖数据。最终,我们希望帮助客户开发一个数据集市,该集市可将数据产品轻松交付给多个角色,无论底层数据源自数据湖还是数据仓库。我们相信,最新版本的 Denodo 平台让我们距离帮助组织实现这一愿景又近了一步。

数据湖与其他企业数据源的集成

除非您将所有数据存储在中央数据湖中,否则数据湖数据将不可避免地必须与其他企业数据存储库和应用程序一起集成和管理。客户的行为数据可能存储在数据湖中,而交互和交易数据可能存储在 CRM 系统和营销数据集市中。当这些孤立的数据源集成并连接在一起时,它们的价值会加倍。

将数据湖与其他数据存储库集成的需求

因此,需要由逻辑数据编织构成数据湖架构的基础。它使组织能够轻松快速地连接不同和孤立的数据源。传统的数据管理方法意味着您必须构建提取、转换和加载 (ETL) 管道,将数据从数据湖以物理方式复制到数据仓库,然后用户才能访问数据的集成视图。基于 Denodo 平台提供的数据虚拟化功能的逻辑方法,可以减少对 ETL 管道的需求,并能在很短的时间内更轻松地创建集成数据视图。

除了使用户能够轻松连接到数据湖并将其与其他数据源集成之外,Denodo 提 供的精密优化引擎还能确保以最快速度执行查询,并尽量减少所用的网络流量。为提升数据虚拟化和联合查询性能,Denodo 开发了能够充分利用嵌入式数据湖 SQL 引擎之优势的全新优化技术。这将在跨复杂、异构数据环境和多种查询场景中实现更高的查询性能,同时将所用的网络流量降到最低。我迫不及待地想让客户体验我们的新型嵌入式数据湖引擎的强大功能,并找到将数据连接在一起以获得新洞察力的新方法。

安全性和治理

最后但同样重要的是,我们需要克服数据湖的安全缺陷。处于原始形式的数据 湖文件非常难以保护和治理,这使得它们在受到高度监管的行业中成为一个挑战。但利用像 Denodo 平台这样的平台,组织可以轻松实施各种安全措施, 如用户访问控制、数据加密、数据脱敏和审计。更高级的功能,如基于行和列的安全防护以及基于标记的安全策略,也可以毫不费力地在数据湖数据之上轻松实施。

跨所有数据存储库利用逻辑数据结构,可以使用单个安全策略在整个数据资产中强制实施数据安全防护措施。能跨数据湖、数据仓库和其他企业应用程序实现数据安全实施的标准化和统一,对于最大限度减少实施工作量并降低运营风险而言是一个巨大优势。

在帮助客户更有效地利用其数据湖投资的漫长旅程中,使用最新版本的 Denodo 平台只是开始。借助 Denodo 平台及其新纳入的数据湖 SQL 引擎,我们希望确保数据湖可访问、易于使用,并且高度安全,所有这些都是让数据湖策略取得成功的必要因素。

借助数据湖加入竞争

获取最新版本的更多信息,并直接听取我们首席技术官 (CTO) 的讲解,了解为何我们认为逻辑数据编织和嵌入式数据湖 SQL 引擎的组合将为客户带来颠覆性改变。

Felix Liao
Felix Liao APAC Director of Product Management Denodo

 2023/07/04

添加新评论

验证码
此问题用于检测您是否是真正的访客并防止自动提交垃圾邮件。
Image CAPTCHA
输入图片中显示的字符。

立刻行动

充分挖掘您的数据,获取实时洞察,
即刻开启数字化转型之旅!
18518356610


18518356610