数据仓库
数据仓库是为企业所有级别的决策指定计划过程,提供所有类型数据支持的战略集合。
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
特点
- 主题性(Subject Oriented)
- 数据仓库是针对某个主题来进行组织,可以将多种不同的数据源进行整合
 
如:滴滴出行的司机行为分析就是一个主题
 - 集成性
- 数据仓库需要将多个数据源的数据存到一起,但是这些数据的存储方式可能不同,需要经过抽取、清洗、转换的过程实现数据集成
 
 - 稳定性
- 保存的数据是一系列历史快照,不允许修改,只能用于分析
 
 - 时变性
- 数据仓库会定期接收新的数据,反映出最新的数据变化
 
 
数据仓库 vs 数据库
- 数据库软件是一种软件,用来实现数据库逻辑过程,属于物理层
 - 数据库是一种逻辑概念,用来存放数据,通过数据库软件实现
 - 数据仓库是数据库概念的升级。
 
从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方。从数量上来说,数据仓库比数据库更加庞大。
- 数据仓库主要用于数据挖掘和数据分析
 - 数据仓库的表结构是依照分析需求、分析维度、分析指标进行设计的
 - 数据库与数据仓库的区别实际是OLTP与OLAP的区别
 - 数据库:OLTP
 - 数据仓库:OLAP
 
| 操作型处理 | 分析型处理 | 
|---|---|
| OLTP | OLAP | 
| On-Line Transaction Processing | On-Line Analytical Processing | 
| 细节的 | 综合或提炼的 | 
| 实体-关系(E-R)模型 | 星型或雪花模型 | 
| 存储瞬时数据 | 存储历史数据,不包含最近的数据 | 
| 可更新的 | 只读、只追加 | 
| 一次操作一个单元 | 一次操作一个集合 | 
| 性能要求高,响应时间短 | 性能要求宽松 | 
| 面向事务 | 面向分析 | 
| 一次操作数据量小 | 支持决策需求 | 
| 数据量小 | 数据量大 | 
| 客户订单、库存水平和银行账户查询 | 客户收益分析、市场细分 |