精华内容
下载资源
问答
  • 一些距离表示和相似度量

    千次阅读 2014-11-27 22:38:30
    信号或者多维空间,常常需要用一些距离或者相关度量来衡量两个点或向量距离和相似度。下面列举一些常用于不同的模型和空间距离。 1. 欧氏距离(euclidean distance)  最通常采用距离定义,指在m维空间中...

    信号或者多维空间里,常常需要用一些距离或者相关度量来衡量两个点或向量的距离和相似度。下面列举一些常用于不同的模型和空间的距离。


    1. 欧氏距离(euclidean distance)

           最通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离(直线距离)。在m维空间中,欧式距离的计算如下:



    2. 马氏距离(Mahalanobis distance)

            马氏距离表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。

    有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到μ的马氏距离表示为:

    而其中向量Xi与Xj之间的马氏距离定义为:

    若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了:

    也就是欧氏距离了。






    3. Bhattacharyya距离

    在统计学中,Bhattacharyya距离(以下称巴氏距离)测量的是两个离散或连续概率分布的相似性。计算方式和Bhattacharyya系数关系很密切。两种计算方式都以A. Bhattacharyya名字命名,Bhattacharyya是一位30年代在印度统计研究所工作的统计学家。巴氏系数可用来对两组样本的相关性进行测量。这一方法常用来作分类器算法

    数学定义

    -离散概率分布

      对于在X数域上的两个离散概率分布p和q,巴氏距离定义为:



    其中


    被称作Bhattacharyya系数(巴氏系数,Bhattacharyya Coefficien)

      0 \le BC \le 1 且 0 \le D_B \le \infty


    对于连续概率分布

      在连续函数中,Bhattacharyya系数如下定义:

     

    0 \le BC \le 1 且 0 \le D_B \le \infty

    两种情形中,巴氏距离DB均不满足三角不等式

    例如在正态分布下,p(x)和q(x)的巴氏距离为;

    D_{B}(p,q) = \frac{1}{4} \ln \left ( \frac{1}{4}\left( \frac{\sigma_{p}^{2}}{\sigma_{q}^{2}}+\frac{\sigma_{q}^{2}}{\sigma_{p}^{2}}+2\right ) \right ) +\frac{1}{4} \left ( \frac{(\mu_{p}-\mu_{q})^{2}}{\sigma_{p}^{2}+\sigma_{q}^{2}}\right )

    其中,σμ分别表示相应的均值和方差。


    Bhattacharyya系数

           巴氏系数是对两个统计样本的重叠量的近似计算。巴氏系数可用来对两组样本的相关性进行测量。

    计算巴氏系数涉及到对该两个样本的重叠部分进行基本形式的积分。两个样本值的积分被分成指定数目的部分。而每一个样本的每一个部分的成员数被用于下式中:

    4.Hellinger 距离

           在概率论和统计理论中,Hellinger距离被用来度量两个概率分布的相似度。它是f散度的一种(f散度——度量两个概率分布相似度的指标)。为了从度量理论的角度定义Hellinger距离,我们假设P和Q是两个概率测度,并且它们对于第三个概率测度λ来说是绝对连续的,则P和Q的Hellinger距离的平方被定义如下:

    H^2(P,Q) = \frac{1}{2}\displaystyle \int \left(\sqrt{\frac{dP}{d\lambda}} - \sqrt{\frac{dQ}{d\lambda}}\right)^2 d\lambda.

    这里的dP 和 dQdλ分别是P和Q的Radon–Nikodym微分。这里的定义是与λ无关的,因此当我们用另外一个概率测度替换λ时,只要P和Q关于它绝对连续,那么上式就不变。为了简单起见,我们通常把上式改写为:

    H^2(P,Q) = \frac{1}{2}\int \left(\sqrt{dP} - \sqrt{dQ}\right)^2.

    Hellinger距离满足如下性质:

    0\le H(P,Q) \le 1.

    离散概率分布

    对于两个离散概率分布 P=(p1,p2,...,pn)和 Q=(q1,q2,...,qn),它们的Hellinger距离可以定义如下:

    H(P, Q) = \frac{1}{\sqrt{2}} \; \sqrt{\sum_{i=1}^{k} (\sqrt{p_i} - \sqrt{q_i})^2},

    上式可以被看作两个离散概率分布平方根向量的欧式距离,如下所示:

    H(P, Q) = \frac{1}{\sqrt{2}} \; \|\sqrt{P} - \sqrt{Q} \|_2 .

    两个正态分布P 和 Q的Hellinger距离的平方可以被定义为:

    H^2(P, Q) = 1 - \sqrt{\frac{2\sigma_1\sigma_2}{\sigma_1^2+\sigma_2^2}} \, e^{-\frac{1}{4}\frac{(\mu_1-\mu_2)^2}{\sigma_1^2+\sigma_2^2}} .

    两个指数分布P 和 Q的Hellinger距离的平方可被定义为:

    H^2(P, Q) = 1 - \frac{2 \sqrt{\alpha \beta}}{\alpha + \beta}.

    两个威利分布P 和 Q(此处k是一个形状参数,α和β是尺度系数)的Hellinger距离的平方可被定义为:

    H^2(P, Q) = 1 - \frac{2 (\alpha \beta)^{k/2}}{\alpha^{k} + \beta^{k}}.

    对于两个具有参数α和β的泊松分布 P 和 Q,它们的Hellinger距离可被定义为:

    H^2(P,Q) = 1-e^{-\frac{1}{2}(\sqrt{\alpha} - \sqrt{\beta})^2}.


    5.明氏距离   (或译成 闵可夫斯基距离 MinkowskiDistance)

    又叫做明可夫斯基距离,是欧氏空间中的一种测度,被看做是欧氏距离的一种推广,对于n维空间的两个点x,y的明氏距离的定义式:

    当p=1时,就是曼哈顿距离

    当p=2时,就是欧氏距离

    当p→∞时,就是切比雪夫距离

           根据变参数的不同,闵氏距离可以表示一类的距离。

    6.汉明距离

    信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如:
    • 10111011001001之间的汉明距离是2。
    • 21438962233796之间的汉明距离是3。
    • "toned"与"roses"之间的汉明距离是3。

    用3个二进制位来表示立方体顶点的编码,那个任意两个顶点(二进制序列)的汉明距离就是边长。如下图所示,从000到111要走3步,汉明距离就是3。



    用4个二进制表示的超立方体的编码也类似,只是多了一位,距离计算也是位变化数量。




    7. 曼哈顿距离(ManhattanDistance)

           从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源, 曼哈顿距离也称为城市街区距离(CityBlock distance)

    (1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离

     

    (2)两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的曼哈顿距离

     





    8.余弦距离(Cosine Distance)

           从名字就可以知道计算什么了,就是两个向量的余弦,对于n维空间的两个向量a和b,其余弦距离;



    9.切比雪夫距离(Chebyshev distance)

           二个点之间的距离定义为其各座标数值差的最大值,以(x1,y1)和(x2,y2)二点为例,其切比雪夫距离为max(|x2-x1|,|y2-y1|)。切比雪夫距离得名自俄罗斯数学家切比雪夫。若将国际象棋棋盘放在二维直角座标系中,格子的边长定义为1,座标的x轴及y轴和棋盘方格平行,原点恰落在某一格的中心点,则王从一个位置走到其他位置需要的步数恰为二个位置的切比雪夫距离,因此切比雪夫距离也称为棋盘距离。例如位置F6和位置E2的切比雪夫距离为4。任何一个不在棋盘边缘的位置,和周围八个位置的切比雪夫距离都是1。




    若二个向量或二个点p 、and q,其座标分别为p_iq_i,则两者之间的切比雪夫距离定义如下:

    D_{\rm Chebyshev}(p,q) := \max_i(|p_i - q_i|).\

    这也等于以下Lp度量的极值:

    \lim_{k \to \infty} \bigg( \sum_{i=1}^n \left| p_i - q_i \right|^k \bigg)^{1/k},

    因此切比雪夫距离也称为L度量。

    以数学的观点来看,切比雪夫距离是由一致范数(或称为上确界范数)所衍生的度量,也是超凸度量的一种。

    在平面几何中,若二点pq的直角坐标系坐标为 (x_1,y_1)(x_2,y_2),则切比雪夫距离为

    D_{\rm Chess} = \max \left ( \left | x_2 - x_1 \right | , \left | y_2 - y_1 \right | \right ) .

    依以上的度量,以任一点为准,和此点切比雪夫距离为r的点会形成一个正方形,其边长为2r,且各边都和坐标轴平行。在棋盘上,使用的是离散的切比雪夫距离,以以任一位置为准,和此点切比雪夫距离为r的所有位置也会形成一正方形,若以位置的中心量到其他位置的中心,此正方形的“边长”为2r,正方形的边会有2r+1个方格,例如,和一位置切比雪夫距离为1的所有位置会形成一个3×3的正方形。



    10. 杰卡德距离(Jaccard Distance) 

    杰卡德距离是用来衡量两个集合差异性的一种指标,它是杰卡德相似系数的补集,被定义为1减去Jaccard相似系数。而杰卡德相似系数(Jaccard similarity coefficient),也称杰卡德指数(Jaccard Index),是用来衡量两个集合相似度的一种指标。

    Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数。




    Jaccard距离用来度量两个集合之间的差异性,它是Jaccard的相似系数的补集,被定义为1减去Jaccard相似系数。
    1) 若A、B两个集合都为空,则
            ;
    2) ;给定两个n维二元向量A、B,A、B的每一维都只能是0或者1,利用Jaccard相似系数来计算二者的相似性:
    1)M00代表向量A与向量B都是0的维度个数;
    2)M01 代表向量A是0而向量B是1的维度个数;
    3)M10代表向量A是1而向量B是0的维度个数;
    4) 
    M11
    代表向量A和向量B都是1的维度个数。
    n维向量的每一维都会落入这4类中的某一类,因此:

    则Jaccard相似系数为


    Jaccard距离为


    11. 信息熵(Information Entropy

    熵用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。英语文本数据流的熵比较低,因为英语很容易读懂,也就是说很容易被预测。即便我们不知道下一段英语文字是什么内容,但是我们能很容易地预测,比如,字母e总是比字母z多,或者qu字母组合的可能性总是超过q与任何其它字母的组合。如果未经压缩,一段英文文本的每个字母需要8个比特来编码,但是实际上英文文本的熵大概只有4.7比特。

    熵的计算

    如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。因此,使用一枚正常硬币进行若干次抛掷,这个事件的熵是一比特,因为结果不外乎两个——正面或者反面,可以表示为0, 1编码,而且两个结果彼此之间相互独立。若进行n次独立实验,则熵为n,因为可以用长度为n的比特流表示。但是如果一枚硬币的两面完全相同,那个这个系列抛硬币事件的熵等于零,因为结果能被准确预测。现实世界里,我们收集到的数据的熵介于上面两种情况之间。

    另一个稍微复杂的例子是假设一个随机变量X,取三种可能值\begin{smallmatrix} x_1, x_2, x_3 \end{smallmatrix},概率分别为\begin{smallmatrix} \frac{1}{2}, \frac{1}{4}, \frac{1}{4} \end{smallmatrix},那么编码平均比特长度是:\begin{smallmatrix} \frac{1}{2} \times 1 + \frac{1}{4} \times 2 + \frac{1}{4} \times 2 = \frac{3}{2} \end{smallmatrix}。其熵为3/2。因此熵实际是对随机变量的比特量和顺次发生概率相乘再总和的数学期望。

    一个值域为{x1, ..., xn}的随机变量X 的熵值 H 定义为:

    H(X)  =  \operatorname{E}(I(X))

    其中,E 代表了期望函数,而 I(X) 是 X 的信息量。I(X) 本身是个随机变量。如果p 代表了 X 的几率质量函数(probability mass function),则熵的公式可以表示为:

    H(X) = \sum_{i=1}^n {p(x_i)\,I(x_i)} = -\sum_{i=1}^n {p(x_i) \log_b p(x_i)}

    在这里 b 是对数所使用的底,通常是 2, 自然常数 e,或是10。当b = 2,熵的单位是bit;当b = e,熵的单位是nat;而当b = 10,熵的单位是dit。

    pi = 0时,对于一些i值,对应的被加数0 logb 0的值将会是0,这与极限一致。

    \lim_{p\to0+}p\log p = 0.


    交叉熵Cross Entropy

    交叉熵是一种万能的Monte-Carlo技术,常用于稀有事件的仿真建模、多峰函数的最优化问题。交叉熵技术已用于解决经典的旅行商问题、背包问题、最短路问题、最大割问题等。

    交叉熵算法的推导过程中又牵扯出来一个问题:如何求一个数学期望?常用的方法有这么几种:

    • 概率方法,比如Crude Monte-Carlo
    • 测度变换法change of measure
    • 偏微分方程的变量代换法
    • Green函数法
    • Fourier变换法

    在实际中变量X服从的概率分布h往往是不知道的,我们会用g来近似地代替h----这本质上是一种函数估计。有一种度量g和h相近程度的方法叫 Kullback-Leibler距离,又叫交叉熵:



    通常选取g和h具有相同的概率分布类型(比如已知h是指数分布,那么就选g也是指数分布)----参数估计,只是pdf参数不一样(实际上h中的参数根本就是未知的)。交叉熵反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。词条的交叉熵越大,对文本类别分布影响也就越大。


    12. 相关系数( Correlation coefficient )与相关距离(Correlation distance)

    (1)相关系数的定义

    相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。

    (2)相关距离的定义




    展开全文
  • 在数据仓库建设中,一般都会...这也是我们在使用hive时,经常会看到一些大宽表原因,大宽表一般都是事实表,包含了维度关联主键和一些度量信息,而维度表则是事实表里面维度具体信息,使用时候一般通过join来

    在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。

    (一)星型模型图示如下:

    image

    星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hive时,经常会看到一些大宽表的原因,大宽表一般都是事实表,包含了维度关联的主键和一些度量信息,而维度表则是事实表里面维度的具体信息,使用时候一般通过join来组合数据,相对来说对OLAP的分析比较方便。

    (二)雪花模型图示如下: image

    当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。雪花模型更加符合数据库范式,减少数据冗余,但是在分析数据的时候,操作比较复杂,需要join的表比较多所以其性能并不一定比星型模型高。

    (三)星型模型和雪花模型的优劣对比:

    属性 星型模型 雪花模型
    数据总量
    可读性 容易
    表个数
    查询速度
    冗余度
    对实时表的情况 增加宽度 字段比较少,冗余底
    扩展性

    (四)应用场景

    星型模型的设计方式主要带来的好处是能够提升查询效率,因为生成的事实表已经经过预处理,主要的数据都在事实表里面,所以只要扫描实时表就能够进行大量的查询,而不必进行大量的join,其次维表数据一般比较少,在join可直接放入内存进行join以提升效率,除此之外,星型模型的事实表可读性比较好,不用关联多个表就能获取大部分核心信息,设计维护相对比较简答。

    雪花模型的设计方式是比较符合数据库范式的理念,设计方式比较正规,数据冗余少,但在查询的时候可能需要join多张表从而导致查询效率下降,此外规范化操作在后期维护比较复杂。

    (五)总结

    通过上面的对比,我们可以发现数据仓库大多数时候是比较适合使用星型模型构建底层数据Hive表,通过大量的冗余来提升查询效率,星型模型对OLAP的分析引擎支持比较友好,这一点在Kylin中比较能体现。而雪花模型在关系型数据库中如MySQL,Oracle中非常常见,尤其像电商的数据库表。在数据仓库中雪花模型的应用场景比较少,但也不是没有,所以在具体设计的时候,可以考虑是不是能结合两者的优点参与设计,以此达到设计的最优化目的。

    展开全文
  • 数据仓库中一种常用组织信息和数据的多维数据模型。它由中心一个事实表(Fact Table)和一些围绕它维度表(Dimensional Table)组成。事实(Fact)着眼于商业活动中分析数据,通常回答诸如这个产品多贵?卖...

    标准星型模型是

    数据仓库中一种常用的组织信息和数据的多维数据模型。它由中心的一个事实表(Fact Table)和一些围绕它的维度表(Dimensional Table)组成。 2011061615072767.gif

    事实(Fact)着眼于商业活动中的分析数据,通常回答诸如这个产品多贵?卖了多少?之类的问题。事实数据存储在事实表里面。事实表可以分为两部分:一部分是指向所有维度表主键的外键字段,另一部分是度量字段(通常叫做Measure,BW中叫做Key Figure)。 
    2011061617062357.gif

    维度(Dimension)是对商业活动某个考察角度的文字性描述,通常回答诸如谁?买了什么东西?什么时候?在哪里?之类的问题。维度数据存储在维度表里面。维度表也可以分为两部分:一部分是作为主键的ID,另一部分是该维度的一组特征字段(Characteristics)。例如顾客维度包含了唯一的顾客ID,顾客的姓名,居住城市,所在区域等。 

    2011061617063539.gif

    SAP  BW星型模型 SAP在标准星型模型基础上做了一些改进,将维度表中的主数据(Master Data)分离出去,独立建表,并通过SID Table和维度表关联起来。SAP将主数据分为3类:属性(Attributes),文字描述(Text),层级结构(Hierarchy)。以Material维度为例,材料的名字放入text 表中,材料所属的类别放入attributes表中,材料的层级信息放入hierarchy表中。 

    2011061617065422.gif

    事实表和与之相关联的维度表构建了BW分析的核心模型InfoCube. InfoCube是一个独立完整的数据集,从多个维度描述了一个商业应用。 

    2011061617070634.gif

    这里需要注意的是Master Data 并不是InfoCube的一部分,因此Master Data可以在多个InfoCube中共享。这是BW将Master Data从维度表分离出来的主要原因之一。我们知道MOLAP数据仓库为了提高Aggregation的效率,需要事先把这些Aggregation的值计算好,而不是在每次请求的时候才计算。这些预先计算好的Aggregation值当然也需要以cube的形式保存起来。如果是用标准星型模型,那么有两种方法来存储:一种是将Aggregation值和facts一起保存在原始cube的事实表中,这样事实表就会更加庞大,查询效率肯定不高。另一种是为不同的Aggregation建立独立的aggregation cube,存在这写新的cube中,但这样会造成维度表的冗余,每个aggregation cube都会重复一份它所需要的维度表中的所有信息。现在BW将Master Data从维度表分离出来使得维度表变成一张简单的关系表,就解决了Master Data的冗余问题。同时由于Master Data不是和维度表绑在一起而是通过SID Table查询得到,使得多语言支持非常方便。可以为每种语言建立独立的主数据表并根据查询时的语言信息动态绑定到不同语言的主数据表。 
    2011061617072120.gif

    转载于:https://www.cnblogs.com/spmxlBlog/archive/2011/06/16/2082727.html

    展开全文
  • 一、度量、指标、指标器 度量和维度构成OLAP的主要概念,对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段,就是度量。...当中的度量值可能是欧元又有可能是美元,那这个度量没法汇总。 ...

    一、度量、指标、指标器

    度量和维度构成OLAP的主要概念,对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段,就是度量。这符合上面的意思,有标准。一个度量字段肯定是统一单位,比如元、户数。假设一个度量字段。当中的度量值可能是欧元又有可能是美元,那这个度量没法汇总。

    OLAP中还有计算度量的说法,用一个总费用除以用户数。得到每户平均费用。但这到底还算不算度量了呢?这已经不是原本意义上的度量了,仅仅是为了称呼方便而已。

    这就得说到指标,英文的Metric

    在绩效管理软件里面,一般是有这个概念的。其定义可表述为"它是表示某种相对程度的值"。差别于度量概念,那是一种绝对值,尺子量出来的结果。汇总出来的数量等。

    而指标至少须要两个度量之间的计算才干得到,比如ARPU,用收入比上用户数,比如收入增长率,用本月收入比上上月收入。当然可能指标的计算还须要两个以上的度量。

    Indicator的字面意思为指示器,在KPI中,最后一个I就是它,可是用中文称呼它的时候,总是叫"关键绩效指标",而没有叫做"指标器",也就造成一些混乱。

    我们身边充当指示器的有:红绿灯。提醒行人车辆是否等待或通行;监控室里的警报灯。提醒哪儿出现异常。汽车仪表盘。提醒驾驶员油是否足够,速度怎样。它们起到的作用是传递一种宏观的信息。促使人的下一步行动。红灯停绿灯行。看到警报亮起要赶紧派人查看。

    眼下常见的企业绩效管理软件中,仪表盘(有的地方称作驾驶舱)的展示界面也是不可缺少。正是用这样的直观而比較有象征性的指示器反映企业运营状况。

    能够设想提出KPI的初衷。是希望企业通过一些粗略(非细节)的信息(而非数据)来为下一步的决策作出根据。

    导致不同的决策行为必然是离散的输入。最简单的就是一个开关。是或不是(比如警报灯)。假设说度量和指标是定量话,指示器就是一种定性的。

    然而。这些系统中的KPI并不是全然上面提到的指示器,非常多系统建设称为度量系统或是指标系统。而对一个企业,哪些指标可以充分反映经营活动,这也是须要精心制定的。而不是让技术部门提出一堆似是而非的指标名称,诸如在网用户数、收入之类,这不是KPI

    三者差别的说明:

    "度量"是绝对的定量值。

    "指标"是基于两个或很多其它度量计算得出的相对值;

    "指示器"是基于度量或指标,并根据某个基准值得到的定性结果。

     

    二、维度中层与级的差别

    OLAP中定义维度时,层(Hierarchy)与级(Level)是比較让人迷惑的两个概念。简单的说,层就是一种维度成员的分类方式,级就是维度成员之间或维度成员属性之间的包括关系。

    一个维度至少要包括一个层。

    [产品]维度为例,能够创建一个[产地]层,能够创建一个[厂商]层,也能够创建一个[分类]层。在SSAS中。能够不定义层,此时维度的默认层为AllMembers层。

    MondrianSchema定义工具中。则要求所有手工定义。

    一个层至少要包括一个级,以[产品]维度为例,[产地]层能够包括省--县三个级别,[分类]层能够包括日用品-洗涤用品-洗衣粉三个级别。级别的定义有2种方式,一种是在一个维度成员的属性之间定义,比如[产品]维度的每一个成员都有产品系列、大类、小类三个属性,这样定义[分类]层的级别时。直接利用这三个属性就可以,即:每一个级别都是一个成员的一个属性。还有一种是在维度成员之间进行。比如HR中的上下级关系。每一个级别都是一个详细的维度成员,即:每一个级别都是一个或多个维度成员,每一个级都包括多个属性。

    后一种级别在数据库中往往是以递归的方式进行保存的。

     

    三、数据仓库相关术语

    数据仓库:数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的而且是时变的

    数据仓库是全部操作环境和外部数据源的快照集合。

    它并不须要很精确,由于它必须在特定的时间基础上从操作环境中提取出来。

    数据集市:数据仓库仅仅限于单个主题的区域,比如顾客、部门、地点等。数据集市在从数据仓库获取数据时能够依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。

    事实:事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。

    事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。每一个事实包含关于事实(销售额,销售量,成本。毛利。毛利率等)的基本信息,而且与维度相关。在某些情况下,当全部的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。

    维度维度是用来反映业务的一类属性,这类属性的集合构成一个维度。比如,某个地理维度可能包含国家、地区、省以及城市的级别。一个时间维度可能包含年、季、月、周、日的级别。

    级别:维度层次结构的一个元素。

    级别描写叙述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最具体)级别(如大分类-中分类-小分类-细分类)。级别仅存在于维度内。

    级别基于维度表中的列或维度中的成员属性。

    数据清洗:对数据仓库系统没用的或者不符合数据格式规范的数据称之为脏数据。清洗的过程就是清除脏数据的过程。

    数据採集:数据仓库系统中后端处理的一部分。数据採集过程是指从业务系统中收集与数据仓库各指标有关的数据。

    数据转换:解释业务数据并改动其内容。使之符合数据仓库数据格式规范,并放入数据仓库的数据存储介质中。

    数据转换包含数据存储格式的转换以及数据表示符的转换(如产品代码到产品名称的转换)。

    联机分析处理(OLAP Online Analytical Processing )OLAP是一种多维分析技术,用来满足决策用户在大量的业务数据中,从多角度探索业务活动的规律性、市场的运作趋势的分析需求。并辅助他们进行战略发展决策的制定。

    依照数据的存储方式分OLAP又分为ROLAPMOLAPHOLAP

    在客户信息数据仓库CCDW的数据环境下,OLAP提供上钻、下钻、切片、旋转等在线分析机制。完毕的功能包含多角度实时查询、简单的数据分析。并辅之于各种图形展示分析结果。

    数据挖掘:在数据仓库的数据中发现新信息的过程被称为数据挖掘,这些新信息不会从操作系统中获得。

    切片:一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。

    切块:一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。

    星型模式:是数据仓库应用程序的最佳设计模式。它的命名是因其在物理上表现为中心实体,典型内容包括指标数据、辐射数据,一般是有助于浏览和聚集指标数据的维度。星形图模型得到的结果经常是查询式数据结构,可以为高速响应用户的查询要求提供最优的数据结构。星形图还经常产生一种包括维度数据和指标数据的两层模型

    雪花模式:指一种扩展的星形图。星形图通常生成一个两层结构。即仅仅有维度和指标,雪花图生成了附加层。实际数据仓库系统建设过程中,通常仅仅扩展三层:维度(维度实体)、指标(指标实体)和相关的描写叙述数据(类目细节实体);超过三层的雪花图模型在数据仓库系统中应该避免。由于它们開始像更倾向于支持OLTP 应用程序的规格化结构,而不是为数据仓库和OLAP应用程序而优化的非格式化结构。

    粒度:粒度将直接决定所构建仓库系统可以提供决策支持的细节级别。粒度越高表示仓库中的数据较粗。反之。较细。

    粒度是与详细指标相关的,详细表如今描写叙述此指标的某些可分层次维的维值上。

    比如,时间维度,时间可以分成年、季、月、周、日等。

    数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。

    事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据是否能满足信息分析的功能需求。而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间。

    度量值:在多维数据集中,度量值是一组值。这些值基于多维数据集的事实数据表中的一列,并且通常为数字。此外。度量值是所分析的多维数据集的中心值。

    即。度量值是终于用户浏览多维数据集时重点查看的数字数据(如销售、毛利、成本)。

    转载于:https://www.cnblogs.com/zhchoutai/p/8576257.html

    展开全文
  • Hive 星型模型入门

    2021-02-26 17:22:12
    星型模是一种多维的数据关系,它由一个事实表和一组维表组成。 每个维表都有一个维作为主键,所有这些维主键组合成事实表主键。 强调是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。 这也是...
  • 2020-08-21

    2020-08-21 08:27:47
    理解数据仓库中星型模型和雪花模型 ...这也是我们在使用hive时,经常会看到一些大宽表原因,大宽表一般都是事实表,包含了维度关联主键和一些度量信息,而维度表则是事实表里面维度具体信息,
  • 数据立方体(Cube)

    千次阅读 2019-04-12 05:35:05
    如上图所示,这是由三个维度构成一个OLAP立方体,立方体中包含了满足条件cell(子立方块)值,这些cell里面包含了要分析数据,称之为度量值。显而易见,一组三维坐标唯一确定了一个子立方。 多位模型的基本...
  • 数据立方体

    千次阅读 2018-01-16 13:30:47
    数据立方体( Cube) ...如上图所示,这是由三个维度构成一个OLAP立方体,立方体中包含了满足条件... 立方体:由维度构建出来的多维空间,包含了所有要分析基础数据,所有聚合数据操作都在立方体上进行
  • 大数据项目-数据立方体

    千次阅读 2018-02-07 14:06:14
    如上图所示,这是由三个维度构成一个OLAP立方体,立方体中包含了满足条件cell(子立方块)值,这些cell里面包含了要分析数据,称之为度量值。显而易见,一组三维坐标唯一确定了一个子立方。   多位模型的...
  • 多位模型的基本概念介绍: 立方体:由维度构建出来的多维空间,包含了所有要分析基础数据,所有聚合数据操作都在立方体上进行。 维度:就是观察数据一种角度。在这个例子框,线,都是...
  • **【迈安带你走进】**如上图所示,这是由三个维度构成一个树形立方体,立方体中包含了满足条件cell(子立方块)值,这些cell里面包含了要分析数据,称之为度量值。显而易见,一组三维坐标唯一确定了一个子立方。...
  • 在统计学中,直方图(英语:Histogram)是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。个变量,通常利用于较小的数据集分析。长条图亦可横向排列...

空空如也

空空如也

1 2
收藏数 21
精华内容 8
关键字:

多维模型里的度量