数据仓库理论基础
# 1. 数仓概念
# 1.1 概念
数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。
数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持。
其特点:
- 数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;
- 同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用;
- 这也是为什么叫“仓库”,而不叫“工厂”的原因。
数据仓库用于 OLAP 分析,与 OLTP 场景解耦。
# 1.2 数据仓库主要特征
数据仓库目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support)。
- 数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;
- 同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用;
其主要特征如下:
- 面向主题(Subject-Oriented):主题是一个抽象的概念,是较高层次上数据综合、归类并进行分析利用的抽象
- 集成性(Integrated):主题相关的数据通常会分布在多个操作型系统中,彼此分散、独立、异构。需要集成到数仓主题下。
- 非易失性(Non-Volatile):也叫非易变性。数据仓库是分析数据的平台,而不是创造数据的平台。
- 时变性(Time-Variant):数据仓库的数据需要随着时间更新,以适应决策的需要。
# 1)面向主题性
比如在保险行业的数据仓库中,存在客户、保险理赔、承保等主题。
数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。
编辑 (opens new window)
上次更新: 2023/12/31, 07:27:06