什么是数据库模式?

使用模式可以简化分析人员和工程师的工作.
2021年9月13日

简单地说, 数据库模式是一种将数据组织到带有列的表中的蓝图, 键和相互关系.

每个应用程序都包含一种现实的表示,称为数据模型,它指定哪些数据对应用程序的功能是必要的, 以及用户如何与之交互. A 逻辑数据库模式 将该数据模型转换为适合在关系数据库中存储的内容.

模式对于数据集成和分析也很重要. 自 数据仓库是数据库的一种类型,存储在数据仓库中的数据也必须组织成模式. 当数据管道 提取和加载数据 进入数据仓库, 它执行预处理, 如清洗和规格化, 使数据一致和清晰, 然后填充模式. 这确保了您的数据可以很容易地理解,并由您的分析师转换为仪表板和报告.

在这里,皇冠手机app下载将讨论模式在数据集成和分析上下文中的重要性.

数据库模式设计的重要性

无论是在应用程序还是在数据仓库中, 设计良好的数据库模式将数据清晰地组织成具有适当属性的不同实体, 显示实体之间的相互关系, 并施加诸如数据类型之类的约束.

数据仓库中设计良好的模式可以通过以下方式简化分析人员的工作:

  1. 它在很大程度上从分析人员的工作流程中删除了清洗和其他预处理.
  2. 它免除了分析人员对应用程序的底层数据模型进行逆向工程的需要.
  3. 它为分析项目提供了一个清晰、容易理解的起点.

这些好处使分析师可以专注于数据建模和转换,以生成报告和仪表板.

模式非常有用,因为来自应用程序或操作系统的原始数据很少具备分析能力. 设计和构建API feed的工程师很少像分析师那样处理问题.

而不是, 从SaaS提供者的角度来看,大多数数据源以最方便的结构交付数据. 在最好的情况下, 提供商可能会对用户想要的特定指标做出强有力的假设, 并相应地组织他们的数据模型. 这通常会造成冗余和缺乏清晰度.

数据集成的数据库规范化

为了克服这种冗余和缺乏清晰度, 您必须对数据源的基础数据模型进行反向工程,并对其进行规范化.

更广泛的讨论 正常的形式 是否超出了本文的讨论范围, 但, 简而言之, 规范化力求消除重复, 冗余和派生数据值.

具体地说, 规范化一个数据集, 必须标识冗余的数据列, 重复的或从其他值派生出来的, 分解或消灭他们, 构建实体-关系模型,清晰地组织数据模型中实体的属性和关系.

有多少种观点,就有多少种建模数据的方法, 但是,标准化数据集的方法相对较少. 通过对数据集进行规范化,可以将其分解为一个简洁而全面的表达式. 模式可以可视化地作为实体关系图(erd)进行交流, 哪个是数据实体及其关系的可视化表示. 标准化模式如下图所示:

erd演示了表、字段、相互关系和表之间的键

规范化模式中的数据不一定对开箱即用的数据分析有用, 因为分析用例通常依赖于计算和派生的值. 因此,正常化不可避免地与 extract-load-transform (ELT)或ETL 过程. 在英语教学, 在数据加载到目标之后,您必须执行转换,将数据转换为可分析的模型.

设计数据集成的模式

为了在数据仓库中构建和填充一个好的模式,你需要:

  1. 充分理解数据源的底层数据模型.
  2. 草图, 不断地迭代, 实体关系图(ERD),以可视化的方式传达各种相互关系(一对一), 一对多和多对多). 您还必须对表和字段应用一致的命名约定.
  3. 在目标中设计一个规范化模式. 从ERD中起草并填充表. 当您可以导入并识别所有字段时,表示成功.
  4. 生产实际的软件来提取数据, 将其预处理到规范化模式中, 然后把它装载到目的地.
  5. 发布你的最终ERD作为分析师的参考.

这个过程中最耗费人力的阶段是第一步:获得对数据源的必要理解. 最明显的方法是研究数据源的文档, 但并不是所有的文档都是全面的或最新的. 您可能被迫实际使用该应用程序来补充您可以从文档中收集到的信息.

每当数据源更改时,上面描述的过程都适用. 如果表或列被删除或重新组织,这将变得棘手, 因为您可以轻松地销毁可能在审计或历史分析中有用的数据. 为了避免这个问题,数据集成应该是 net-additive 或无损的.

模式的自动数据集成

好的模式设计需要投入大量的时间和人才. 使用标准化的解决方案可以使您充分利用那些熟悉您想要的数据的人的专业知识,这样您就不必重新发明轮子.

要亲身体验Fivetran如何实现数据集成自动化,请注册一个 免费试用.

开始免费

加入成千上万使用Fivetran来集中和转换数据的公司吧.

谢谢你!! 你的意见书已收到!
哦! 在提交表单时出现了错误.