精华内容
下载资源
问答
  • 多维数据模型与大数据应用
    2020-12-15 16:49:53

    在传统的应用场景下,企业都是利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常的业务运作。但是随着信息社会的发展,如何从大数据中提取出对企业决策分析有用的信息,这成为企业决策管理人员所面临的重要难题。应用于决策支持的数据属于统计、概括性数据,而非细节性的数据。传统的OLTP系统中,存储的都是细节性的数据,已经无法应用于大数据场景下的决策支持。于是,OLAP(联机分析处理)应运而成,OLAP基于多维数据库和多维分析,存储的主要是信息数据,以基于大数据实现支持管理分析为主要目的。
    OLAP是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型(维指的是用户的分析角度)。多维数据模型围绕中心主题组织,该主题用事实表表示,事实是以数值进行度量。数据立方体允许以多维数据建模和观察,它由维和事实定义。多维数据模型可以是星型模式、雪花模式、或事实星座模式的形式存在。传统关系数据库模型中提取信息时,需对大量二维表格进行分析,但在多维数据模型中,数据立方体可以较为方便我们对多维数据进行理解。此时数据分析的对象就是相应逻辑概念上的数据立方体。多维数据模型最大的优点是基于分析优化的数据组织和存储模式,缺点是与关系模型相比其灵活性不够,一旦模型构建就很难进行更改。
    基于多维数据模型的OLAP,是数据仓库的核心。而数据仓库是对于大量已经由OLTP形成的数据的分析型的数据库,用于处理商业智能、决策支持等重要的决策信息。随着大数据时代的到来,OLAP的多维数据模型比传统意义关系数据模型更具优势。实际上数据仓库(DW)、联机分析处理(OLTP)和数据挖掘(DM)是作为三种独立的信息处理技术出现的。数据仓库用于数据的存储和组织,OLTP集中于数据的分析,数据挖掘则致力于知识的自动发现。由于这三种技术内在的联系性和互补性,将他们结合起来就成为了一种新的决策支持系统架构,成为BI的三个支柱。这一架构以数据库中的大量数据为基础:
    1.在底层的数据库中保存了大量事务级的细节数据。
    2.数据仓库对底层数据库中的事务级数据进行集成、转换、综合和重新组织, 为决策支持系统提供数据存储和组织的基础。
    联机分析处理从数据仓库中的集成数据出发,构建面向分析的多维数据模 型,再使用多维分析方法从多个不同的视角对多维数据进行分析和比较。

    更多相关内容
  • 建设数据模型既然是整个数据仓库建设中一个非常重要的关键部分,那么,怎么建设我们的数据仓库模型就是我们需要解决的一个问题。这里我们将要详细介绍如何创建适合自己的数据模型。 大千世界,表面看五彩缤纷,实质...
  • 多维数据模型

    万次阅读 2018-09-18 15:04:33
    数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看成是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。 数据立方体允许以多维数据建模和观察,它由维和事实定义。...

    一、从关系表和电子表格到数据立方体

    数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看成是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。实是数值度量的。

    数据立方体允许以多维数据建模和观察,它由维和事实定义。

    维是关于一个组织想要记录的视角或观点,每个维都有一个表与之相关联,称为维表

    事实表包括事实的名称或度量,一个n维的数据立方体叫做基本方体。给定一个维的集合,可构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放在最高层的汇总,称作顶点方体;存放在最底层汇总的方体则称为基本方体

    二、数据仓库的概念模型

    最流行的数据仓库概念模型:多维数据模型。这种模型可以是星型模式、雪花模式、或事实星座模式的形式存在。

    (1)星型模式(star schema):事实表在中心,周围围绕地连接着维表(每一维),事实表含有大量数据,没有冗余。

    维表location 中  city  和 country 属性重叠即属性冗余(造成空间浪费和数据不一致性)

    (2)雪花模式(snowflake schema):是星型模式的变种,其中某些维表是规范化(将冗余字段用新的表来表示)的,因而把数据进一步分解到附加表中,结果,模式图形成类似于雪花的形状。

    (3)事实星座模式(fact constellations):多个事实表共享维表,这种模式可看做星型模式集,因此称为星系模式(galaxy schema,星型模式的集合),或者事实星座(fact constellation)

    三、一种数据挖掘查询语言:DMQL

    DMQL首先包括定义数据仓库和数据集市的语言原语,这包括两种原语定义:一种是立方体定义,一种是维定义

    (1)立方体定义(事实表)

    define cube<cube_name>[<dimension_list>]:

    <measure_list>

    (2)维定义(维表)

    define dimension <dimension_name> as 

    (<attribute_or_subdimension_list>)

    (3)特殊案例(共享维表的定义)

    第一次作为维表定义''cube definition ''

    然后:define dimension<dimension_name> as 

                 <dimension_name_first_time>in cube

                 <cube_name_first_time>

    实例:使用DMQL定义星型模式

    define cube sales_star[time,item,branch,location]:

            dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)

    define dimension time as (time_key,day,day_of_week,month,quarter,year)

    define dimesion item as (item_key,item_name,brand,type,supplier_type)

    define dimension branch as (branch_key,branch_name,branch_type)

    define dimension location as (location_key,street,city,province_or _state,country)

    实例:使用DMQL定义雪花型模式

    define cube sales_snowflake[time,item,branch,location]:

            dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)

    define dimension location as (location_key,street,city(city_key,province_or _state,country)) 规范化,用新表去除冗余

    实例:使用DMQL定义事实星座模式

    define cube sales[time,item,branch,location]:

            dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)

    define dimension time as (time_key,day,day_of_week,month,quarter,year) 第一次定义

    define dimesion item as (item_key,item_name,brand,type,supplier_type)

    define dimension branch as (branch_key,branch_name,branch_type)

    define dimension location as (location_key,street,city,province_or _state,country)

    define cube shipping[time,item,shipper,from_location,to_location]:

            dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)

    define dimension time as time in cube sales   第二次可直接引用

    define dimension item as item in cube sales

    define dimension shipper as(shipper_key,shipper_name,location as location in cube sales,shipper_type)

    define dimension from_location as location in cube sales

    define dimension to_location  as location in cube sales

    四、度量的分类

    一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求职。度量可以根据其所用的聚类函数分为三类:

    分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样 count(),sum(),min(),max()

    代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函数求导 avg(),min_N(),standard_deviation()

    整体的(holistic):描述函数的子聚集所需的存储没有一个常数界。median(),mode(),rank()

    五、概念分层和多维数据模型上的OLAP操作

    (1)概念分层:一个概念分层定义一个映射序列,将不同的属性连接成一个整体。利于不同层次的数据进行汇总,按属性进行汇总。

    (2)多维数据模型上的OLAP操作

    上卷(roll-up):汇总数据,通过一个维 的概念分层向上攀升或者通过维规约

    下钻(drill-down):上卷的逆操作,由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现。

    切片和切块(slice and dice):投影和选择操作

    转轴(pivot):立方体的重定位,可视化,或将一个3维立方体转化为一个3维平面序列

    其他OLAP操纵:钻过(drill_across):执行涉及多个事实表的查询

                                   钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表

    六、数据仓库设计:

    如何设计有效的数据仓库,就需要进行需求分析,则需要构建一个商务分析框架

    (1)数据仓库设计的四种视图

    i:      自顶向下视图:允许我们选择数据仓库所需的相关信息

    ii:     数据源视图:揭示被操作数据库系统所捕获、存储和管理的信息

    iii:     数据仓库视图:有事实表和维表所组成

    iiii:    商务查询视图:从最终用户的角度透视数据仓库中的数据

    (2)数据仓库的设计过程

    i:      自顶向下法(由总体设计和规划开始:成熟)、自底向上法(以实验和原型开始:快速)或者两者结合的混合方法

    ii:     从软件过程的观点:瀑布式方法:在运行下一步前,每一步都进行结构化和系统的分析;

                                                   螺旋式方法:功能渐增的系统的快速产生,相继版本之间间隔很短

    iii:    典型的数据仓库设计过程

    选取待建模的商务过程;选取商务过程的粒度;选取用于每个事实表记录的维;选取将安放在事实表中的度量

    数据仓库服务器大部分都是关系数据库服务器。

    数据仓库也是数据库,但是是分离的数据库。

    (3)三种数据仓库模型

    企业仓库:搜集关于跨越整个组织的主题的所有信息

    数据集市:企业范围数据的一个子集,对于特定的客户是有用的:其范围限于选定的主题,比如一个商场的数据集市 

                          独立的数据集市 VS 非独立的数据集市(数据来自于企业的数据仓库)

    虚拟仓库:操作数据库上的一系列视图,只有一些可能的汇总图被物化

    (4)数据仓库开发- 一个推荐的方法

    七、OLAP  服务器类型

    (1)关系OLAP服务器(POLAP)

    使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而用OLAP中间件支持其余部分

    包括每个DBMS 后端优化,聚集导航逻辑的实现,附加的工具和服务

    较大的可扩展性

    (2)多维OLAP服务器(MOLAP)

    基于数组的多维存储引擎(稀疏矩阵技术)

    能对预计算的汇总数据快速索引

    (3)混合OLAP服务器(HOLAP)

    结合上述两种技术,更大的使用灵活性

    (4)特殊的SQL服务器

    在星型和雪花模型上支持SQL查询

     

    展开全文
  • 数据仓库多维数据模型概念介绍

    千次阅读 2019-11-15 16:16:44
    操作性数据库与数据仓库区别 操作型数据库主要考虑的是事务型处理,一般采用E-R模型进行建模。 数据仓库主要面向分析,设计数据仓库时...多维数据模型采用多维结构文件进行数据存储,并有索引及相应元数据管理文...

    操作性数据库与数据仓库区别

    操作型数据库主要考虑的是事务型处理,一般采用E-R模型进行建模。

    数据仓库主要面向分析,设计数据仓库时应该需要简明的、面向主题的模式,便于OLAP,通常使用多维数据建模。

    多维数据模型

    将数据看做数据立方形式,满足用户从多角度、多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型。多维数据模型采用多维结构文件进行数据存储,并有索引及相应元数据管理文件与数据相对应。

    • 粒度:数据仓库中数据单元的详细程度和级别
    • 维度:分析数据的角度
      • 维属性:一个维通常通过一组属性进行描述,如时间维包含了年份、季度、月份、日期等维属性
      • 维成员:不同维层次的取值组合,如某年某月某日属于时间维的一个维成员
    • 事实/度量:数据仓库中的信息单元,用于存放数据。

    常见的基于关系数据库的多维数据模型

    星形模式、雪花模式、事实星座模式

    • 星形模式

    • 雪花模式:

    • 事实星座模式:

    星形模式、雪花模式、事实星座模式之间的区别:

     

    展开全文
  • 一篇介绍后关系数据库的文章,较系统的介绍了其存储原理,实现方法等。
  • 一旦多维数据模型建立完成,用户可以快速地从各个分析角度获取数据,也能动态的在各个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性。这也是联机分析处理被广泛关注的根本原因,它从设计理念和真正实现...

    【转载原因:图片清晰解释了OLAP的各种转换应用】

    【原文:作者:张小凡vip,地址:https://blog.csdn.net/q383965374/article/details/78490660

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。

    本文链接:https://blog.csdn.net/q383965374/article/details/78490660

     

    OLAP分析

    联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。

    它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。

    其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;

    A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告;

    M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;

    I是信息性(Information),指能及时获得信息,并且管理大容量信息。

     

    OLAP与OLTP的区别

    OLAP用于分析。 
    OLTP用于业务。

    联机事务处理(On line Transaction Processing,OLTP)应用是指支持业务处理为主要目的的应用。它所存储的数据被称为操作数据或者业务数据。

    许多企业利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常的业务运作。 
    随着数据库技术的广泛应用,企业信息系统产生了大量的业务数据,如何从这些海量的业务数据中提取出对企业决策分析有用的信息,这成为企业决策管理人员所面临的重要难题。 
    因此,人们逐渐尝试对OLTP数据库中的数据进行再加工,以形成一个综合的、面服务对象、访问方式、事务管理乃至物理存储等方面都有不同的特点和要求,因此,直接在操作型数据库上建立决策支持系统是不合适的。 
    数据仓库技术就是在这样的背景下发展起来的。 
    随着市场竞争的日趋激烈,企业更加强调决策的及时性和准确性,这使得以支持决策管理分析为主要目的的应用迅速崛起,这类应用被称为联机分析处理,它所存储的数据被信息数据。 
    联机分析处理的概念最早由关系数据库之父E.F.Codd于1993年提出。Codd认为,联机事务处理已不能满足终端用户对数据库查询分析的要求,SQL对大容量数据库的简单查询也不能满足用户分析的需求。 
    用户的决策分析需要对关系数据库进行大量的计算才能得到结果,而查询的结果并不能满足决策者提出的需求。 
    因此,Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术。

     

    特点

    联机分析处理的主要特点,是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,在这里,维指的是用户的分析角度。例如对销售数据的分析,时间周期是一个维度,产品类别、分销渠道、地理分布、客户群类也分别是一个维度。一旦多维数据模型建立完成,用户可以快速地从各个分析角度获取数据,也能动态的在各个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性。这也是联机分析处理被广泛关注的根本原因,它从设计理念和真正实现上都与旧有的管理信息系统有着本质的区别。 
    事实上,随着数据仓库理论的发展,数据仓库系统已逐步成为新型的决策管理信息系统的解决方案。数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。 
    概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。它本身包括三部分内容: 
    1、数据层:实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。 
    2、应用层:通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。 
    3、表现层:通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。 
    从应用角度来说,数据仓库系统除了联机分析处理外,还可以采用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实际上只是数据仓库系统的一部分。

     

    相关概念

    OLAP展现在用户面前的是一幅幅多维视图。 
    联机分析处理 
    联机分析处理 
    维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。 
    维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。 
    维的成员(Member):维的一个取值,是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)。 
    度量(Measure):多维数组的取值。(2000年1月,上海,笔记本电脑,0000)。 
    OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。 
    钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。 
    Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数; 
    而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。

     

    切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。

    旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

     

    体系结构

    OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。

     

    ROLAP

    ROLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。不必要将每一个SQL查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。对每个针对OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等等。

     

    MOLAP

    MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(PhysicalOLAP);而ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(VirtualOLAP)。

     

    HOLAP

    由于MOLAP和ROLAP有着各自的优点和缺点(如下表所示),且它们的结构迥然不同,这给分析人员设计OLAP结构提出了难题。为此一个新的OLAP结构——混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP两种结构的优点结合起来。迄今为止,对HOLAP还没有一个正式的定义。但很明显,HOLAP结构不应该是MOLAP与ROLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。

     

    基本功能

    (1)切片和切块(Slice and Dice) 
    切片和切块是在维上做投影操作。 
    切片就是在多维数据上选定一个二维子集的操作,即在某两个维上取一定区间的维成员或全部维成员,而在其余的维上选定一个维成员的操作。 
    维是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上集中观察数据。因为人的空间想象能力毕竟有限,一般很难想象四维以上的空间结构,所以对于维数较多的多维数据空间,数据切片是十分有意义的. 
    (2)钻取(Drill) 
    钻取有向下钻取(Drill Down)和向上钻取(Drill up)操作。向下钻取是使用户在多层数据中展现渐增的细节层次,获得更多的细节性数据。向上钻取以渐增概括方式汇总数据(例如,从周到季度,再到年度)。 
    (3)旋转(Pivoting) 
    通过旋转可以得到不同视角的数据。旋转操作相当于在平面内将坐标轴旋转。例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去,或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)。

     

    广义功能

    从广义上讲,任何能够有助于辅助用户理解数据的技术或者操作都可以作为OLAP功能,这些有别于基本OLAP的功能被称为广义OLAP功能。 
    (1)基本代理操作 
    “代理”是一些智能性代理,当系统处于某种特殊状态时提醒分析员。 
    ①示警报告:定义一些条件,一旦条件满足,系统会提醒分析员去做分析。如每日报告完成或月订货完成等通知分析员作分析。 
    ②时间报告:按日历和时钟提醒分析员。 
    ③异常报告:当超出边界条件时提醒分析员。如销售情况已超出预定义阈值的上限或下限时提醒分析员。 
    (2)计算能力 
    计算引擎用于特定需求的计算或某种复杂计算。 
    (3)模型计算 
    增加模型,如增加系统优化、统计分析、趋势分析等模型,以提高决策分析能力。

     

    多维数据模型

     

    数据立方体

    很多年前,当我们要手工从一堆数据中提取信息时,我们会分析一堆数据报告。通常这些数据报告采用二维表示,是行与列组成的二维表格。但在真实世界里我们分析数据的角度很可能有多个,数据立方体可以理解为就是维度扩展后的二维表格。下图展示了一个三维数据立方体:

    尽管这个例子是三维的,但更多时候数据立方体是N维的。它的实现有两种方式,本文后面部分会讲到。其中上一篇讲到的星形模式就是其中一种,该模式其实是一种连接关系表与数据立方体的桥梁。

    但对于大多数纯OLAP使用者来讲,数据分析的对象就是这个逻辑概念上的数据立方体,其具体实现不用深究。

    对于这些OLAP工具的使用者来讲,基本用法是首先配置好维表、事实表,然后在每次查询的时候告诉OLAP需要展示的维度和事实字段和操作类型即可。

    下面介绍数据立方体中最常见的五大操作:切片,切块,旋转,上卷,下钻。

    下钻(Drill-down):在维的不同层次间的变化,从上层降到下一层,或者说是将汇总数据拆分到更细节的数据,比如通过对2010年第二季度的总销售数据进行钻取来查看2010年第二季度4、5、6每个月的消费数据,如上图;当然也可以钻取浙江省来查看杭州市、宁波市、温州市……这些城市的销售数据。

    上卷(Roll-up):钻取的逆操作,即从细粒度数据向高层的聚合,如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据,如上图。

    切片(Slice):选择维中特定的值进行分析,比如只选择电子产品的销售数据,或者2010年第二季度的数据。

    切块(Dice):选择维中特定区间的数据或者某批特定值进行分析,比如选择2010年第一季度到2010年第二季度的销售数据,或者是电子产品和日用品的销售数据。

    旋转(Pivot):即维的位置的互换,就像是二维表的行列转换,如图中通过旋转实现产品维和地域维的互换。

     

    优缺点

    这里所说的多维模型是指基于关系数据库的多维数据模型,其与传统的关系模型相比有着自身的优缺点。

     

    优点

    多维数据模型最大的优点就是其基于分析优化的数据组织和存储模式。

    举个简单的例子,电子商务网站的操作数据库中记录的可能是某个时间点,某个用户购买了某个商品,并寄送到某个具体的地址的这种记录的集合,于是我们无法马上获取2010年的7月份到底有多少用户购买了商品,或者2010年的7月份有多少的浙江省用户购买了商品? 
    但是在基于多维模型的基础上,此类查询就变得简单了,只要在时间维上将数据聚合到2010年的7月份,同时在地域维上将数据聚合到浙江省的粒度就可以实现,这个就是OLAP的概念。

     

    缺点

    多维模型的缺点就是与关系模型相比其灵活性不够,一旦模型构建就很难进行更改。 
    比如一个订单的事实,其中用户可能购买了多种商品,包括了时间、用户维和商品数量、总价等度量,对于关系模型而言如果我们进而需要区分订单中包含了哪些商品,我们只需要另外再建一张表记录订单号和商品的对应关系即可,但在多维模型里面一旦事实表构建起来后,我们无法将事实表中的一条订单记录再进行拆分,于是无法建立以一个新的维度——产品维,只能另外再建个以产品为主题的事实表。 
    所以,在建立多维模型之前,我们一般会根据需求首先详细的设计模型,应该包含哪些维和度量,应该让数据保持在哪个粒度上才能满足用户的分析需求

     

    模型设计

    合理的业务模型设计对ETL至关重要。 
    数据仓库是企业唯一、真实、可靠的综合数据平台。 
    数据仓库的设计建模一般都依照三范式、星型模型、雪花模型,无论哪种设计思想,都应该最大化地涵盖关键业务数据,把运营环境中杂乱无序的数据结构统一成为合理的、关联的、分析型的新结构。

    我们将在下一章节详细说明 数据仓库多位数据模型设计。

    展开全文
  • 一、星型模式、 二、星型模式 缺点、 三、雪片模型、 四、星型模型 雪片模型 折衷方案、 五、事实群模型 ( 仅做了解 )、 六、度量、
  • 基于多维数据模型的中文人名搜索引擎的设计与实现,陈晓云,苗圣法,目前,对于特定行业信息的搜取,成为新一代搜索引擎的发展趋势。本文提出了一种采用多维数据模型作为中文人名搜索引擎的数据存储��
  • 一、OLAP 核心技术、 二、OLAP 多维数据模型、 三、OLAP 多维数据模型 核心概念、 四、维、 五、维成员、 六、维层、 七、维层次、 八、维属性、 九、度量
  • OLAP和多维数据模型

    万次阅读 多人点赞 2017-11-09 15:56:36
    联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。 它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的...
  • 数据仓库多维数据模型的设计.doc
  • 采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中,所以只要扫描事实表就可以进行查询,而不必把多个庞大的表联接起来,查询访问效率较高,同时由于维表一般都很小,甚至...
  • 多维数据模型中维度、度量、层级理解 如何认识(看)对象? 当我们去看、去观测一个事物,一个对象的时候,总是不能回避的是观测方向、观测角度、观测属性、观测维度、观测特征等待。 角度,属性、方向、维度、...
  • 基于数据挖掘的远程教育系统多维数据模型构建.pdf
  • 数据仓库多维数据模型的设计说明.doc
  • 数据仓库 数据仓库优势: 查询性能提高 与源数据所在系统隔离,因而不会妨碍业务系统的性能 在数据仓库中进行复杂的查询 数据源所在系统进行联机事务处理 数据仓库中的数据 对源数据进行一定的聚集运算,统一表示...
  • 由于数据仓库很难做到从建模初期就完全考虑到多维分析的所有维及其层次,需要一个易于实现模式演变的数据模型及建模工具来支持增量式数据仓库的建设,因而提出了一个可以支持模式演变的数据模型,并给出其形式定义及...
  • 作者 |云祁°封图|CSDN下载于视觉中国一、前言作者最近看了《Hadoop构建数据仓库实践》这本书,收获很多,把一些关于数仓实践的心得整理出来,方便大家共同学习。注:本文内容由作...
  •  多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式,本文以实例方式展示三者的模式和区别。 二、星型模式(star schema)  星型模式的核心是一个...
  • 多维数据模型的设计

    千次阅读 2017-11-04 15:34:00
    多维数据模型的设计概述 一、维表、事实表 二、星型模式(star schema) 三、雪花模式(snowflake schema) 四、事实星座模式(Fact Constellation)或星系模式(galaxy schema) 五、度量:分类与计算 六、多维数据...
  • 可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些。但不得不承认多维数据模型是数据仓库的一大特点,也是...
  • 基于多维数据模型的城市建设用地数据挖掘研究——以北京市为例.pdf
  • (星形模式是一种多维数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们...
  • 多维数据模型总结和归纳

    千次阅读 2019-04-26 13:59:57
    Mondrian本身是不存储数据的,通过MDX语句(一个类似于SQL的查询语言)来获取数据,Mondrian 运行的时候要连数据库,并且还要有一个数据模型配置文件(Mondrian叫schema),其实就是一个取数据的规则;由此可知...
  • 最近看了《Hadoop构建数据仓库实践》这本书,收获很多,把一些关于数仓实践的心得我会写出来分享给大家,希望大家伙儿能互相学习,共同进步,☆⌒(*^-゜)v THX!!

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 61,624
精华内容 24,649
关键字:

多维数据模型

友情链接: Safe Stop Connection.rar