精华内容
下载资源
问答
  • 2021-04-12 15:33:37


    数据仓库是伴随着信息技术和决策支持系统(DSS,Decision Support System)的发展而产生的,利用历史的操作数据进行管理和决策。

    数据仓库是一个面向主题的、集成的、非易失的、随着时间变化的,用于支持管理人员决策的数据集合,数据仓库包含粒度化的企业数据,在不同的粒度级别上对数据进行聚合,这样,数据仓库中就存在最细节的原始数据、轻度聚合数据、高度聚合数据。

    一,体系结构的变迁

    早期的数据分析系统是通过“抽取”方式来处理数据,从在线事务处理(OLTP)数据库中,把相关的数据抽取到一个特定的数据库中。抽取式的优点是,把数据从OLTP环境中转移出来,对数据进行分析就不会影响原有的操作型数据库的性能了,但是,DSS分析员使用抽取式进行数据分析,主要面临以下三个问题:

    • 缺乏数据可信度:数据可能没有公共的起始源数据,没有时间基准,这会导致不同的部门抽取的数据可能是不同的,得出的分析结果可能是截然不同的。
    • 降低生产率:数据分散,需要重复抽取数据,并且数据的可信度得不到保证,降低了DSS分析员的工作效率
    • 无法把数据转换为信息:抽取式数据缺乏集成性,也没有足够的数据供DSS分析员进行分析

    为了克服抽取式的缺点,数据仓库应运而生,它把数据集成到单一的数据仓库中,各个部门从数据仓库中获取数据进行后续的业务分析。在数据仓库中,数据集成是非常重要的,当数据从操作型环境加载到数据仓库中时,必须进行数据集成,ETL(抽取、转换和加载)软件使得数据集成可以自动化进行。

    在体系结构化环境中个,主要存在两种类型的数据:原始数据和导出数据。原始数据是维持企业日常运行的细节性数据,可以更新,是面向应用程序的操作型数据;而导出数据是经过汇总和计算来满足公司管理和决策的需要,是面向主题的,经过集成的,不直接更新的历史数据。

    由于原始数据和导出数据之间存在巨大的差异,使得它们不能共存于同一个数据库,因此,必须把数据进行分离。在体系结构化环境中,有四个层次的数据:操作层(OLTP)、数据仓库层(DW)、数据集市层(DM)和个体层,操作层数据只包含面向应用的原始数据,数据仓库层存储不可更新的、已集成的历史数据,数据集市层是根据用户的需求为满足部门的特殊需求而建立的,数据个体层用于完成大多数启发式分析,是小规模的临时数据。

    二,硬件利用模式

    操作型环境和数据仓库环境之间,硬件的利用模式不同。在操作型处理中有多个波峰和波谷,总体来说,存在相对稳定的硬件利用模式;而在数据仓库环境中,存在一个根本不同的硬件利用模式,二元模式:要么利用全部硬件,要么根本不用硬件,因此,估算数据仓库环境中的硬件平均利用率是没有意义的。

    在这里插入图片描述

    在OLTP环境中,响应时间要求非常苛刻,当响应时间变长时,用户体验就会变糟糕,而在数据仓库中,对响应速度的要求是非常宽松的,但是,快的响应速度也是非常必要的。

    三,数据仓库的开发周期

    数据仓库中的用户是数据分析人员(DSS分析人员),主要工作是定义和发现企业决策中使用的信息。数据分析人员的工作模式是一种发现模式,例如,给我看一下我想要的数据,然后,我才能告诉你我真正想要什么。换句话说,数据分析人员只有看到报表数据之后,才开始探讨如何使用数据。

    数据仓库的开发是以数据开始,得到数据后,把数据集成,进而分析数据,这种以数据驱动的开发周期是螺旋式迭代进行的。

    四,数据仓库的特性

    数据仓库作为决策支持系统的单一数据源,是数据可重用和分析结果一致性的基础,它通过集成处理得到一致性的数据集,便于分析人员对数据的重复使用;通过分区把数据合理分布到不同的硬件存储器上,提高了数据访问的速度;提供了唯一的起始源数据,保证了分析结果的一致性。与传统的抽取式环境相比,数据仓库使得分析人员把精力放到数据的分析上,而不是数据的获取上,提高了分析的效率。

    1,数据仓库是面向主题的

    在数据仓库中,每一个主题都是以一组相关的表来实现的,表和表之间通过“外键”或者说公共关键字来联系起来。在确定数据仓库面向的主题之后,根据主题来设计相应的物理表。

    数据仓库的数据模型是通过分为三个层次:

    • ERD(实体关系图)是最顶层的概念模型,是实体关系的高度抽象,主要用于确定各个实体(或主题)之间的关系;
    • 中间层是数据集成(DIS),用于对主要数据分组,设置数据的链接,确定数据的类型;
    • 底层是物理模型,用于设计SQL Server的关系表;

    2,数据仓库是有结构的

    在数据仓库中,数据存在着不同的细节级:原始数据(最细节的数据)、当前细节数据、轻度聚合数据和高度聚合数据,数据的粒度升级,是在数据由操作层传输到导出层进行的,一旦数据过期,就由原始数据导出当前细节数据,进而导出聚合数据。我们把聚合之后的数据称作缓存数据,这是为了定向提高某个主题或分析的查询性能。

    不同的细节级,实际是由数据粒度的不同导致的,而粒度的升级通常是由时间、类别等属性聚合之后得到的。粒度会深刻地影响存储到数据仓库中的数据量的大小和数据仓库支持的查询类型。数据仓库中数据量的大小和粒度成反比,粒度越低,支持的查询范围越广泛,数据量越大。换句话说,低粒度可以回答任何问题,而高粒度会限制数据所能回答的问题。

    由于高粒度会降低数据量,使得查询速度更快;而低粒度能够回答更多的问题,因此,在数据仓库中,一般根据数据被查询的频次,设计多重粒度,这样啊,既能使用高粒度快速响应高频问题,也能使用低粒度回答低频的问题。

    3,分区设计

    数据分区是把数据分散到可独立进行IO处理的分离的硬盘中,从根本上来说,分区的好处有两点:

    • 利用分区,可以把IO分散到不同的硬盘上去,以并发方式访问数据,提高数据查询和更新的速度;
    • 利用分区,可以把不常用的数据切换到廉价的大容量硬盘上去,而把常用的数据切换到性能优越的硬盘上去;

    对数据分区,需要依据特定的数据列,通常以时间列作为分区列,把不同的时间区间的数据存放到不同的分区中去。

    更多相关内容
  • 在具体学习数据仓库之前先看一下数据中心的整体构架以及数据流向。 DB 是现有的数据来源,可以为mysql、SQLserver、文件日志等,为数据仓库提供数据来源的一般存在于现有的业务系统之中。 ETL 是 Extract-...

    在具体学习数据仓库之前先看一下数据中心的整体构架以及数据流向。
    在这里插入图片描述

    • DB 是现有的数据来源,可以为mysql、SQLserver、文件日志等,为数据仓库提供数据来源的一般存在于现有的业务系统之中。

    • ETL 是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程:

       Extract,数据抽取,也就是把数据从数据源读出来。
       Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。
       Load 数据加载,把处理后的数据加载到目标处,比如数据仓库。
      
    • ODS(Operational Data Store) 操作性数据,是作为数据库到数据仓库的一种过渡,ODS的数据结构一般与数据来源保持一致,便于减少ETL的工作复杂性,而且ODS的数据周期一般比较短。ODS的数据最终流入DW。

       DW (Data Warehouse)数据仓库,是数据的归宿,这里保存且长期保存着所有从ODS来的数据,并且这些数据不会被修改。
      
    • DM(Data Mart) 数据集市,为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据,面向应用。


    面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术,其分别是:数据仓库技术、Hadoop。
    当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据。
    在这里插入图片描述

    一、什么是数据仓库

    数据仓库之父Bill Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。
    数据仓库的目的是构建面向分析的集成化数据环境为企业提供决策支持。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。

    二、数据仓库的基本概念

    (一)数据源

    构建一个数据仓库,必然要有充足的数据源,从外部为数据仓库系统提供进行分析的“原材料”——数据,这些数据来源称为数据仓库的数据源。
    数据源并不局限与传统数据库,可以是非结构化的信息,如爬取日志,也可以是埋点日志。

    (二)ETL

    在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关系到BI项目的成败。其中,花费时间最长的是“T”(transform,清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。
    ETL是将业务系统中的数据经过抽取(Extract)、清洗转换(Transform)和加载(Load)到数据仓库的过程,目的是将企业中的分散、凌乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
    在这里插入图片描述
    ETL处理分为五大模块,分别是:数据抽取、数据清洗、数据转换、规则检查、数据装载。各模块之间灵活组合,形成ETL处理流程。下面简单介绍一下各模块之间的功能。

    1.数据抽取

    在构建数据仓库的过程中,数据源所提供的数据并不都是有用的,有些数据对决策并不能提供支持,同时,外部数据源中数据冗余的现象也很普遍。数据仓库既然是面向主题的,那么在数据源中,只有那些与主题相关的内容才是必需的、有使用价值的。因此,必需以主题的需求为依据,对数据源的内容进行有目的地选择,这一过程被称为“数据抽取”(Data Extraction)。

    对于数据的抽取,是从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中。具体步骤为,首先要搞清楚数据是从哪几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在非结构化的数据等,当收集完这些信息后才可以进行数据抽取的设计。

    (1)对于与存放 DW 的数据库系统相同的数据源处理方法

    这类数据源在设计上比较容易处理。一般情况下,DBMS(Mysql、SQLServer)都会提供数据库连接功能,在 DW 数据库服务器和原业务系统之间建立直接的连接关系,接下来就可以写查询语句直接访问。

    (2)对于与存放 DW 的数据库系统不同的数据源处理方法

    对于这类数据源,一般情况下也可以通过 ODBC 的方式建立数据库连接。如果不能建立数据库连接,可以用两种方法完成,一种是通过工具将数据源导出成 .txt 或者 .xls 文件,然后再将这些源系统文件导入到 ODS 中。另一种方法是通过程序接口来完成。

    (3)对于文件类型数据源(.txt/.xls)

    业务人员可以利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取。或者业务人员借助工具实现。

    (4)增量更新问题

    对于数据量大的系统,必须考虑增量抽取。一般情况,业务系统会记录业务发生的时间,可以用作增量的标志,每次抽取之前首先判断 ODS 中记录最大的时间,然后根据这个时间去业务系统取大于这个时间的所有记录。

    2.数据清洗转换

    一般情况下,数据仓库分为ODS、DW两部分。通过的做法是从业务系统到ODS做清洗,将脏数据和不完整数据过滤掉,再从ODS到DW的过程中转换,进行一些业务规则的计算和聚合。

    (1) 数据清洗

    数据仓库的数据源所提供的数据内容并不完美,存在着“脏数据”——即数据有缺省值、异常值等缺陷,而且在数据仓库的各数据源之间,其内容也存在着不一致的现象。为了控制这些“脏数据”对数据仓库分析结果的影响程度,必须采取各种有效的措施,对其进行处理,这一处理过程称为“数据清洗”(Data Transform)。对于任何数据仓库而言,数据清洗过程都是不可缺少的。

    不同类型的“脏数据”,清洗处理的方法是不同的。

    对于缺省值,产生的原因可能是,信息暂时无法获取、信息被遗漏、属性值不存在,比如一个儿童的固定收入等。解决方法是,通过简单的统计分析,得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数和缺失率。删除含有缺失值的记录、对可能值进行插补和不处理三种情况。

    对于异常值,产生的原因可能是:业务系统检查不充分。解决方法是,先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,然后判断变量是否超过了合理的范围。如果数据是符合正态分布,在原则下,异常值被定义为一组测定值中与平均值的偏差超过 3 倍标准的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。

    对于不一致值,产生的原因可能是:业务系统检查不充分。解决方法是,先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,然后判断变量是否超过了合理的范围。如果数据是符合正态分布,在原则下,异常值被定义为一组测定值中与平均值的偏差超过 3 倍标准的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。

    数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤、是否修正一般要求客户确认;对于过滤掉的数据,写入 Excel 文件或者将过滤数据写入数据表,在 ETL 开发的初期可以每天向业务单位发送过来数据的邮件,促使他们尽快的修正错误,同时也可以作为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉了,对于每个过滤规则认真进行验证,并要用户确认才行。

    (2) 数据转换

    数据转换的任务主要是进行不一致的数据转换、数据粒度和的转换和一些商务规则的计算等。

    a. 不一致的数据转换

    这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个用户在用户管理系统的编码是 XX0001 ,而在订单系统的编码是 YY0001 ,这样在抽取过来之后统一转换成一个编码。

    b. 数据粒度的转换

    业务系统一般存储粒度较小的数据,而数据仓库中的数据是用来分析的,不需要粒度很小的数据,一般情况下,会将业务系统数据按照数据仓库粒度进行聚合。

    c. 商务规则的计算

    不同的企业有不同的业务规则,不同的数据指标,这些指标有时候不能简单的加加减减就能完成,这个时候需要在 ETL 中将这些数据指标计算好了之后存储在数据仓库中,供分析使用。

    (三)元数据

    所谓“元数据”(Meta Data),就是关于数据仓库中各种数据的数据。它是关于数据仓库中数据、操作数据以及应用程序的结构和意义的描述信息。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。

    元数据是整个数据仓库的核心部件,元数据管理器是企业级数据仓库中的关键部件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。

    a. 数据获取区域元数据

    在这个区域中,数据仓库的处理过程主要包括数据抽取、数据转换、数据清洗、数据集成、数据准备五项功能。这些处理过程是通过相应的工具完成的,在这些处理过程进行时,相应的工具就记录下了与这些处理相关的元数据。在以后的数据仓库维护和管理过程中,技术人员也将使用这些已记录下来的元数据管理和监控正在运行的功能。

    b. 数据存储区域元数据

    在这个区域中,数据仓库的处理过程主要包括数据装载、数据存储、数据管理三项功能。这些处理过程同样是通过相应的工具完成的,在这些处理过程进行时,相应的工具就记录下了与这些处理相关的元数据。数据仓库的管理员在进行完全数据刷新和数据增量装载中会用到这些元数据;在数据备份、恢复的处理中,以及对数据仓库的清理和数据定期归档中也需要用到这些元数据。对用户来说,也有可能用到这些元数据。

    c. 数据传递区域元数据

    在这个区域中,数据仓库的处理过程主要包括报表生成、查询处理、复杂分析三项功能。信息传递区域的处理过程主要是为最终用户服务的,所记录的元数据为用户提供预定义查询和预定义报表解疑,定义了用户查询和报表生成需要输入的相关参数,也包括与 OLAP 相关的元数据。系统的开发者和管理员都会参加这个区域的处理过程。

    在该区域中,当用户在查询处理工具的辅助下构建一条查询时,也会引用数据获取区域和数据存储区域中记录的元数据。
    在这里插入图片描述
    元数据定义了数据仓库中的数据的模式、来源、抽取和转换规则等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来,组成了一个有机的整体。

    (四)数据集市

    数据集市(Data Market,DM)是为企业特定部门的决策支持而组织起来的一批数据和业务规划。它是一种小型的、部门级数据仓库。习惯上称之为 “主题域” ,企业的不同部门有不同的 “主题域” ,因而就有不同的数据集市。

    数据集市有两种类型:独立型数据集市(Independent Data Mart)和从属型数据集市(Dependent Data Mart)。

    独立型数据集市的实质,是为了满足企业内各部门的分析需求而建立的微型数据仓库。有些企业在实施数据仓库项目时,为了节省投资,尽快见效,针对不同部门的需要,分布建立起这类数据集市,已解决一些较为迫切的问题。但是,当多个独立的数据集市增长到一定规模后,由于没有统一的数据仓库协调,企业只会又增长出一些新的信息孤岛,仍然不能以整个企业的视角来分析数据。
    在这里插入图片描述
    从属型数据集市的内容并不直接来自外部数据源,而是从数据仓库中得到。在数据仓库内部,数据根据分析主题,划分成若干个子集,进行组织、存放。这种面向某个具体的主题而在逻辑上或物理上进行划分所形成的数据子集,就是从属型数据集市。数据划分成集市之后,在进行某个确定主题的分析时,可以有效缩小数据的检索范围,明显提高工作效率。
    在这里插入图片描述

    三、数据仓库的四个基本特征

    (一)面向主题

    传统的操作型系统是围绕组织的功能性应用进行组织的,而数据仓库是面向主题的。主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。数据仓库则是辅助人们分析数据的设计。

    比如,一个公司要分析销售数据,就可以建立一个专注于销售的数据仓库,使用这个数据仓库,就可以回答类似于 “上一季度谁是我们这款产品的最佳用户” 这样的问题。这个场景下的销售,就是一个数据主题,而这种通过划分主题定义数据仓库的能力,就使得数据仓库是面向主题的。

    主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品都是主题域的例子。

    (二)集成

    在这里插入图片描述
    数据仓库的一个重要的功能是把不同的数据源的数据汇总到一起(如上图)。

    集成是指把不同类型的数据源的数据进行整合,按照统一的形式进行集成。比如性别在一个数据源用男/女,另一个数据源用1/2,那么在数据仓库中,就需要对其进行统一。

    (三)非易失

    在这里插入图片描述
    传统的操作型环境中的数据一般是要周期性地更新的,且一般按一次一条记录的方式进行。但数据仓库中的数据通常以批量方式载入与访问(如上图),但在数据仓库环境中并不进行数据更新。数据仓库中的数据在进行装载时是以静态快照的格式进行的。当产生后继变化时,一个新的快照记录就会写入数据仓库。这样,在数据仓库中就保存了数据的历史状况。

    (四)时变性

    在这里插入图片描述
    时变性指的是数据仓库中的每个数据单元只在某一时间是准确的。在一些情况下,记录中加有时间戳,而在另外一些情况下记录则包含一个事务的时间。总之,任何情况下,记录都包含某种形式的时间标志用以说明数据在哪一时间是准确的。

    除了以上四个特性外,数据仓库还有一个非常重要的概念就是粒度。粒度问题遍布于数据仓库体系结构的各个部分。粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。比如,单个事务是低粒度级别,而全部一个月事务的汇总就是高粒度级别(如下图)。
    在这里插入图片描述
    粒度之所以是数据仓库环境的关键设计问题,是因为它极大地影响数据仓库的数据量和可以进行的查询类型。粒度级别越低,数据量越大,查询的细节程度越高,查询范围越广泛,反之亦然。

    四、数据库和数据仓库的区别

    在这里插入图片描述
    数据仓库是在传统数据库的基础之上发展起来的,但它并不是对传统数据库的彻底抛弃,而是旨在弥补传统数据库在数据分析能力方面的不足,以提供良好的大规模数据分析能力为己任,力图为决策提供有效的技术支持。和传统数据库相比,数据仓库在总体特征、面向用户、存储内容等方面,都有着重大的差异(如下表)。
    在这里插入图片描述
    数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它绝不是所谓的“大型数据库”。

    数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。


    转载自:
    https://www.jianshu.com/p/3e1386d6052e(作者:mr_酱)
    http://www.chanpin100.com/article/113132(作者:猫耳朵)

    展开全文
  • 数据仓库什么

    万次阅读 多人点赞 2021-04-18 08:26:15
    写在前面 本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之...数据仓库本身并不“生产”任何数据,同时自身也不需要消费”任何的数据,数据来源于外部,并且开放给外部

    写在前面

    本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

    本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

    解答

    数据仓库(Data Warehouse),可简写为DW或DWH。
    数据仓库的目的是构建面向分析的集成化数据环境,为企业提供決策支持(Decision Support)。它出于分析性报告和決策支持目的而创建。
    数据仓库本身并不“生产”任何数据,同时自身也不需要消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫"工厂"的原因。
    
    数据仓库是面向主题的(Subject-oriented)、集成的(Integrated)、稳定性的(Non-Volatile)和时变的(Time-Variant)数据集合,用以支持管理決策。
    

    在这里插入图片描述

    补充

    面向主题

    操作型数据库的数据组织是面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。

    这里说的“主题”是一个抽象的概念,它指的是用户使用数据仓库进行决策时关心的重点方面,一个主题通常与多个操作型信息系统相关。

    例如,商品的推荐系统就是基于数据仓库设计的,商品的信息就是数据仓库所面向的主题。

    集成性

    根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。

    数据仓库集成性

    稳定性

    数据的相对稳定性,数据仓库中的数据只进行新增,没有更新操作、删除操作处理。

    因为数据仓库主要目的是为决策分析提供数据,所涉及的操作主要是数据的査询,一旦某个数据存入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,修改和删除操作很少,通常只需要定期的加载、刷新来更新数据。

    时变性

    数据仓库是随时间变化的。

    数据仓库的数据一般都帯有时间属性,随着时间的推移而发生变化,不断地生成主题的新快照。

    数据仓库是不同时间的数据集合,它所拥有的信息并不只是反映企业当前的运营状态, 而是记录了从过去某一时间点到当前各个阶段的信息。

    可以这么说,数据仓库中的数据保存时限要能满足进行决策分析的需要(如过去的5~10年),而且数据仓库中的数据都要标明该数据的历史时期。

    数据仓库时变性

    展开全文
  • 数据仓库什么

    千次阅读 2018-01-29 09:50:19
    如果不是,数据仓库什么,用来干什么的呢? 平时遇到这个问题一般还真是不好简单明了的回答,因为也的确不是一两句话说的清的。那么数据仓库到底是什么呢,跟数据库有什么区别呢?   数据仓库什么呢?...

    数据库是最常听到的名词之一了,但是当提到数据仓库的时候,就会疑问,数据仓库是数据库吗? 如果不是,数据仓库是什么,用来干什么的呢? 平时遇到这个问题一般还真是不好简单明了的回答,因为也的确不是一两句话说的清的。那么数据仓库到底是什么呢,跟数据库有什么区别呢?

     

    数据仓库是什么呢?

    数据仓库是面向主题的 集成的 相对稳定的 反映历史变化的数据集合,目的在于支持决策

    1. 面向主题

      • 面向主题跟面向应用相对应。面向应用是指实现某种功能,数据集合也是其单一功能的数据集。而面向主题是指为了实现某个主题而产生的一个或多个的面向应用的数据集合的整合。

      • 举个例子,支付是一个面向应用的主体,而交易是一个面向主题的主体。因为交易是从下单,到支付等的一系列的过程的串联,支付只是其中的一环。

    2. 集成
      • 数据仓库的一个重要的功能是把不同的数据源的数据汇总到一起。
      • 集成是指把不同类型的数据源的数据进行整合,按照统一的形式进行集成。比如性别在一个数据源用男/女 另一个用1/2,那么在数据仓库中我们需要对其进行统一。
    3. 相对稳定
      • 数据一般有一定的生命周期,历史的数据一般不会再改变,我们可以采用增量的策略进行数据的传输和计算。比如看订单的支付成功的相关信息,那么一旦订单支付成功之后,这个订单的支付成功相关的信息就不会在变更,所以此类的数据可以按天增量计算。
    4. 反映历史变化
      • 由于在数据仓库中可以存储历史的信息,那么就可以根据这些历史信息进行数据的分析来反映历史的变化。而操作型数据库一般只会某些时间段的数据。

     数据仓库跟数据库有什么区别呢?

    从数据仓库的概念中也可以看出来数据仓库做的事情确实跟数据库不一样。归纳起来如下

    1. 数据粒度不同。数据库存储的是操作型数据,是细节性的数据,事当前的数据,反应的是最后修改的结果。数据仓库是分析型的集成或者汇总的数据,面向主题,并且保存数据的所有历史状态。
    2. 数据生命周期不同。数据库存的数据的生命周期比较短,不会保存很久的数据。数据仓库则需要历史数据来反映趋势的变化和数据分析。
    3. 建模方法不同。数据库采用范式建模,不能有冗余。数据仓库的建模方法有DW范式建模(跟数据库的范式建模也不同)和DM维度建模等,可以存在冗余。
    4. 时间敏感度不同。数据库的数据要求及时性非常高。数据仓库可以容忍数据的一定的延迟。
    5. 目标不同。数据库主要面向业务处理的,而数据仓库则面向分析用户。

    网上引用比较多的对比表格

    展开全文
  • 近些年来,随着计算机技术的迭代,越来越多新的名词涌入,数据中台、数据仓库等等,让人眼花缭乱,云里...为什么建立数据仓库? 最大的原因是为企业构建一个能够面向数据分析的集成数据环境,以便为企业或有需要的用
  • 什么是数据仓库

    万次阅读 多人点赞 2019-04-24 19:44:14
    什么需要数据仓库? 传统的数据库中,存放的数据都是一些定制性数据较多,表是二维的,一张表可以有很多字段,字段一字排开,对应的数据就一行一行写入表中,特点就是利用二维表表现多维关系。 但这种表现关系...
  • 3 数据仓库的主要特征4 数据仓库与数据库区别5 数据仓库架构6 数据仓库元数据管理什么是元数据?元数据具体的工作内容元数据分为技术元数据和业务元数据7 数据治理脏数据的种类数据治理原则知识拓展(数据集市)结束...
  • 面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术,其分别为:数据仓库技术、Hadoop。当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来储存和处理这些数据。 数据仓库是...
  • MySQL数据库与数据仓库什么区别

    千次阅读 2022-02-28 21:45:17
    而且数据仓库的搭建如此麻烦,维护也不方便,还不如直接用MySQL。 存在即合理,我带着这些疑惑重新看了一些资料,终于理清楚他们的区别啦。 想要理解他们的区别首先要理解什么是OLTP和OLAP系统。 OLTP即联机...
  • 什么是数据仓库

    千次阅读 2018-07-12 22:27:22
    什么是数据仓库数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。这个定义的确官方,但是却指出了数据仓库的四个特点。特点面向主题:数据仓库都是基于...
  • Hadoop之数据仓库概述

    千次阅读 多人点赞 2021-07-10 08:28:08
    数据仓库的概念可以追溯到20世纪80年代,当时IBM的研究人员开发出了“商业数据仓库”。本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。数据仓库概念的提出,是为了解决和这个数据流
  • 什么是数据仓库(DW)

    千次阅读 2019-07-13 10:28:25
    什么是数据仓库1 什么时候需要用到数据仓库? 一个公司里面不同项目可能用到不同的数据源,有的存在MySQL里面,又的存在MongoDB里面,甚至还有些要做第三方数据。 但是现在又想把数据整合起来,进行数据分析。...
  • 什么是数据仓库什么是ETL

    千次阅读 2018-03-01 15:36:25
    公司最近要搞数据分析,两个项目拥有不同的数据源,有些数据存在Oracle,有些数据存在MongoDB,再加上一些第三方的数据。 要将这些数据整合在一起进行数据分析...那么什么是数据仓库呢? 数据仓库,英文名称Data...
  • 漫画:什么是数据仓库

    万次阅读 多人点赞 2018-02-05 00:00:00
    什么是数据仓库数据仓库,英文名称Data Warehouse,简写为DW。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI...
  • 数据仓库和数据库解决的问题有什么不一样? 数据仓库架构的发展历史 从Hadoop框架的角度来理解数据仓库 从Hive来更深入理解: 数据仓库和数据库解决的问题有什么不一样?
  • 1.6 监控数据仓库环境 1.7 小结 第2章 数据仓库环境 2.1 数据仓库的结构 2.2 面向主题 2.3 第1天到第n天的现象 2.4 粒度 2.5 探查与数据挖掘 2.6 活样本数据库 2.7 分区设计方法 2.8 数据仓库中的数据组织 2.9 审计...
  • 漫画:什么是数据仓库和ETL?

    千次阅读 2018-05-17 09:57:57
    什么是数据仓库数据仓库,英文名称Data Warehouse,简写为DW。数据仓库顾名思义,是一个很大的数据存储集合,出于政府或企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为需求单位...
  • 数据仓库及数据挖掘

    千次阅读 2022-03-25 00:05:51
    一、数据仓库概述 二、数据仓库的建设 三、数据仓库的分类 四、数据仓库的设计方法 五、数据挖掘 1、概述 2、常用技术与方法 3、应用
  • 数据中台与数据仓库什么区别?

    千次阅读 2021-12-11 18:01:33
    数字化转型浪潮卷起各种新老概念满天飞,数据中台、数据仓库轮番在朋友圈刷屏,企业还没推开数字化大门,先被各种概念绊了一脚。今天咱们就来看下这两者究竟有啥区别。 假设咱们把数据中台和数据仓库都看作一家银行...
  • 数据湖和数据仓库的区别是什么

    万次阅读 2020-07-09 08:55:13
    我们都知道,进行数据分析工作的时候会用到很多的工具,比如说数据湖和数据仓库,不过这两者之间的差异和区别,可能会让人困惑。那么大家知道不知道数据湖和数据仓库的区别是什么呢?下面我们就给大家介绍一下数据湖...
  • 数据仓库原理

    千次阅读 2022-03-29 16:30:43
    数据仓库原理 ODS>DWD>DWS>ADS
  • 大数据--数据仓库

    千次阅读 2022-04-24 15:39:49
    数据仓库概念数据仓库特点数据仓库分层数据仓库建模模型选择数仓建模流程数仓建模过程模型设计的思路模型落地实现事实表设计事实表设计原则事实表设计方法三种事实表多维体系结构维度设计六范式与反范式元数据数据...
  • 点击蓝色“有关SQL”关注我哟加个“星标”,天天与10000人一起快乐成长图 | 榖依米文章较长,可收藏后看。本文最后,准备了文中谈到的资料,可自取。在知乎上看到这么个问题:数据库与数据...
  • 数据仓库基本知识

    万次阅读 多人点赞 2017-10-31 17:35:04
    数据仓库什么 根据统计,每个企业的数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。 因此,企业仍然没有最大化地利用已存在的数据资源,以...
  • 因此本篇开头将介绍业界公认的数据仓库定义,它和操作型数据库应用的区别,以及为什么我们需要数据仓库。 在对数据仓库的概念有了基本的认识后,有必要单独说明一下ETL这个最重要的过程,然后向读者介绍四种常见的...
  • 数据仓库 基本概念

    千次阅读 2019-07-02 14:35:06
    1.什么是数据库? 数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。 数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织...
  • 数据仓库,数据集市,数据孤岛,数据湖,数据中台 文章目录数据仓库,数据集市,数据孤岛,数据湖,数据中台1.数据仓库2.数据集市3.数据孤岛4.数据湖5.数据中台 1.数据仓库 定义:数据仓库是一个面向主题的、集成...
  • 数据仓库VS数据湖

    千次阅读 2022-03-26 18:31:30
    本文将新兴的数据湖技术和数据仓库技术进行了对比,然后简要介绍三种常见的数据湖实施方案。 2.数据仓库痛点 没有存储非结构化的数据 这里并不是说数仓不能存储非结构化的数据,而是数仓的分层模型决定了数据会被...
  • 万字详解数据仓库、数据湖、数据中台和湖仓一体

    千次阅读 多人点赞 2022-02-22 09:18:01
    数字化转型浪潮卷起各种新老概念满天飞,数据湖、数据仓库、数据中台轮番在朋友圈刷屏,有人说“数据中台算个啥,数据湖才是趋势”,有人说“再见了数据湖、数据仓库,数据中台已成气候”…… 企业还没推开数字化...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 449,660
精华内容 179,864
关键字:

数据仓库是什么