0%

Data Scientist | 数据仓库

Data Warehouse

数据仓库

数据仓库是为企业所有级别的决策指定计划过程,提供所有类型数据支持的战略集合。

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

特点

  • 主题性(Subject Oriented)
    • 数据仓库是针对某个主题来进行组织,可以将多种不同的数据源进行整合

    如:滴滴出行的司机行为分析就是一个主题

  • 集成性
    • 数据仓库需要将多个数据源的数据存到一起,但是这些数据的存储方式可能不同,需要经过抽取、清洗、转换的过程实现数据集成
  • 稳定性
    • 保存的数据是一系列历史快照,不允许修改,只能用于分析
  • 时变性
    • 数据仓库会定期接收新的数据,反映出最新的数据变化

数据仓库 vs 数据库

  • 数据库软件是一种软件,用来实现数据库逻辑过程,属于物理层
  • 数据库是一种逻辑概念,用来存放数据,通过数据库软件实现
  • 数据仓库是数据库概念的升级。

从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方。从数量上来说,数据仓库比数据库更加庞大。

  • 数据仓库主要用于数据挖掘和数据分析
  • 数据仓库的表结构是依照分析需求、分析维度、分析指标进行设计的
  • 数据库与数据仓库的区别实际是OLTPOLAP的区别
  • 数据库:OLTP
  • 数据仓库:OLAP
操作型处理 分析型处理
OLTP OLAP
On-Line Transaction Processing On-Line Analytical Processing
细节的 综合或提炼的
实体-关系(E-R)模型 星型或雪花模型
存储瞬时数据 存储历史数据,不包含最近的数据
可更新的 只读、只追加
一次操作一个单元 一次操作一个集合
性能要求高,响应时间短 性能要求宽松
面向事务 面向分析
一次操作数据量小 支持决策需求
数据量小 数据量大
客户订单、库存水平和银行账户查询 客户收益分析、市场细分

参考资料

Thank you for your approval.

欢迎关注我的其它发布渠道