数据仓库
数据仓库是为企业所有级别的决策指定计划过程,提供所有类型数据支持的战略集合。
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
特点
- 主题性(Subject Oriented)
- 数据仓库是针对某个主题来进行组织,可以将多种不同的数据源进行整合
如:滴滴出行的司机行为分析就是一个主题
- 集成性
- 数据仓库需要将多个数据源的数据存到一起,但是这些数据的存储方式可能不同,需要经过抽取、清洗、转换的过程实现数据集成
- 稳定性
- 保存的数据是一系列历史快照,不允许修改,只能用于分析
- 时变性
- 数据仓库会定期接收新的数据,反映出最新的数据变化
数据仓库 vs 数据库
- 数据库软件是一种软件,用来实现数据库逻辑过程,属于物理层
- 数据库是一种逻辑概念,用来存放数据,通过数据库软件实现
- 数据仓库是数据库概念的升级。
从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方。从数量上来说,数据仓库比数据库更加庞大。
- 数据仓库主要用于数据挖掘和数据分析
- 数据仓库的表结构是依照分析需求、分析维度、分析指标进行设计的
- 数据库与数据仓库的区别实际是OLTP与OLAP的区别
- 数据库:OLTP
- 数据仓库:OLAP
操作型处理 | 分析型处理 |
---|---|
OLTP | OLAP |
On-Line Transaction Processing | On-Line Analytical Processing |
细节的 | 综合或提炼的 |
实体-关系(E-R)模型 | 星型或雪花模型 |
存储瞬时数据 | 存储历史数据,不包含最近的数据 |
可更新的 | 只读、只追加 |
一次操作一个单元 | 一次操作一个集合 |
性能要求高,响应时间短 | 性能要求宽松 |
面向事务 | 面向分析 |
一次操作数据量小 | 支持决策需求 |
数据量小 | 数据量大 |
客户订单、库存水平和银行账户查询 | 客户收益分析、市场细分 |