AmosCloud

Library

Have a Question?

If you have any question you can ask below or enter what you are looking for!

day08_Hive

1名词解释

1.1 数据库

  • 百度百科
    数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
    数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。

  • 自己解释

    • 是什么?
      就是一个服务端软件,可以存储结构化或者非结构化数据,具有低延迟的增删改查功能。
    • 常见的:
      Mysql,Oracle,Redis...
    • 使用场景:
      web,app开发中常见

1.2 数据仓库

  • 百度百科
    数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

  • 自己解释

    • 是什么?
      是一个用来存储大量数据的存储系统,这个存储系统可以使用数据库或者文件系统作为载体,通常需要在存储载体上安装可以方便进行数据分析(sql)的软件.
    • 常见的:
      存储:Oracle,HDFS
      分析:Oracle,Hive,SparkSQL,Impala,drill,prosto
    • 使用场景:
      一般作为公司或者组织,存储历史全量数据。
      通过全量数据进行指标统计或者数据挖掘提供数据支持。

1.3 ETL

Extract
Transform
Load

2数据仓库的分层设计

  • 原始层

    • 数据类型:直接采集到的原始数据全部保存到原始层
    • 数据来源:网站/APP的日志,爬虫数据,用户数据,设备数据
    • 规范: 分区表
  • 数据明细层

    • 数据类型:从原始层清洗完的数据,一般字段比较全,原始数据有多少字段,明细层就保留多少 ETL中E
    • 数据来源:原始层
    • 规范:每个原始层表都有自己单独对应的明细层
  • 维度层
    ETL中的T

    • 数据类型:从明细层进行转换得到的数据,一般会按照各种维度,每个维度又有多个度量,例如:时间维度 年,年月,年月日,年月日时,年月日时分,年月日时分秒,第几周周,季度上旬
    • 数据来源:数据明细层
    • 规范:单个表只存储单个维度的数据
  • 应用层(数据集市):
    ETL中的L

    • 数据类型:实际需求,一个需求对应一个表结构
    • 数据来源:维度层

You must be logged in to post a comment.