什么是数据湖?

数据湖作为业务数据的中心目的地,并为用户提供指导业务决策的平台.
2022年2月4日,

数据湖泊,如 数据仓库 和数据集市, 作为业务数据的中心目的地,并为用户提供指导业务决策的平台. 数据仓库和数据集市基于重要的企业数据是结构化的假设. 结构化数据遵循可预测的格式, 很容易被机器解释吗, 并且可以存储在关系数据库中. 

数据的湖泊, 相比之下, 对象或文件存储是否能够轻松容纳大量的原始数据, 非结构化数据和结构化数据, 关系数据. 这可能包括自由格式的文本, 图片, 视频和其他媒体, 以及整齐地组织成模式的表. 

数据湖可以追溯到2010年代初, 当一些数据专家认为关系存储不够灵活,无法支持复杂的分析和数据科学用例时, 特别是那些依赖于非结构化数据的.

如何使用数据湖

使用数据湖最简单的方法是在建模并将其加载到数据仓库之前全面存储大量数据. 这种方法是一个纯表达式 英语教学 用数据湖作为集结区. 除了支持媒体文件和非结构化数据, 这种方法的主要优点是,您不必事先为数据设计模式.

使用数据湖的第二种方式是将其作为特定人工智能或机器学习应用程序的专用目的地,这些应用程序依赖于非结构化数据作为训练集. 数据湖能做而数据仓库不能做的是存储大量的媒体,如文档, 图片, 视频, 和音频. 这些媒体可以被组织成机器学习模型的训练和验证集.

数据湖在这两个用例中都很流行, 顶级云服务包括AWS数据湖, 谷歌云存储和微软Azure数据湖. 

如何不使用数据湖

使用数据湖的一个严重的潜在陷阱是“不透明”.“没有一个健壮的数据治理方法, 数据湖很容易变成数据沼泽,不需要或未使用的数据被丢弃,有价值的数据难以搜索或导航. 数据湖缺乏结构,这使其难以管理.

此外, 数据湖中的记录不能使用SQL或大多数商业智能平台轻松访问或连接, 这使得数据湖一般不适合分析师使用.

如果您的组织的分析用例完全依赖关系数据, 数据仓库通常更有意义. 想要更深入的了解这个问题,请阅读皇冠手机app下载的文章 数据湖泊和. 数据仓库.

需要关注的趋势

新技术,比如 AWS湖形成砖数据Lakehouse,结合数据仓库和数据湖的特点. 一些数据湖现在合并了数据仓库的特征,如ACID(原子性), 一致性, 隔离, 持久性)事务和模式强制作为使数据不那么“模糊”的特性.“同样的, 数据仓库现在有时支持非结构化的数据,以及通常与数据湖相关的数据科学工具和语言, 如Apache Spark和Python. 结合数据湖体系结构和数据仓库特征的数据存储库可以称为 数据lakehouse.

无论这些技术如何发展, 单一的真实来源,如数据仓库和数据湖,将继续形成关键 现代数据堆栈, 一套工具和技术,用于使来自不同来源的数据在单一平台上可用. 这些活动统称为数据集成,是分析的先决条件.

要了解更多,请下载 数据集成的基本指南.

开始免费

加入成千上万使用Fivetran来集中和转换数据的公司吧.

谢谢你!! 你的意见书已收到!
哦! 在提交表单时出现了错误.