admin 管理员组

文章数量: 887019

数仓建模—数据模型的 10 个常见错误

1 将模式设计视为一次性项目

构建数据资产是一个持续的过程。随着您的分析需求随着时间的推移而变化,架构也必须进行调整。将数据建模视为一次性活动是不现实的。想想那些因为源系统之一的数据结构发生变化而不得不更改列名、数据类型,甚至重建整个表的情况。

以同样的方式,您可以构建一个完全适合特定时间用例的模式。但是,当数据持续增长或源系统发生变化(新的 ERP、CRM、PIM 系统)时,由于下游工作负载或性能优化的必要变化,设计工作仍将继续。

2 构建太大的表和 ETL 流程

想象一下,正在构建用于营销成本归因的数据管道。与其将其实现为一个巨大的 ETL 流程并生成一个表,不如采用一个初始流程,首先将来自不同渠道的所有原始(尚未归属)成本合并到一个中间表中。然后,该表可以由一些执行归因的下游流程使用。

从长远来看,拆分和解耦数据转换将使整个流程更易于构建、调试和维护。

此外,中间表对于对原始数据感兴趣的最终用户(在进行任何计算和转换之前)非常有价值。如果最终表中的某些内容看起来不合理,可以更深入地研究上一步中的数据,以调查发生的情况及其原因。

3 选择(并坚持&

本文标签: 建模 错误 常见 数据模型