精华内容
下载资源
问答
  • trados2011最新的记忆库和术语库的操作和维护教程
  • 数据仓库基础术语名词一览

    千次阅读 2015-08-09 09:36:43
    合并事实表是将不同事实表的事实合并到同一张事实表的建模方法,合并的事实要保证在相同的粒度。 这种建模方法通常被用来横跨多个业务主题域来建立数据集市, Kimball 将这样的数据集市称为第二级的数据集市。...

    冰山查询――iceberg query 

    在数据仓库领域有一个概念叫Iceberg query,中文一般翻译为“冰山查询”。冰山查询在一个属性或属性集上计算一个聚集函数,以找出大于某个指定阈值的聚集值。

    以销售数据为例,你想产生这样的一个顾客-商品对的列表,这些顾客购买商品的数量达到3件或更多。这可以用下面的冰山查询表示:

    Select        P.cust_ID, P.item_ID, SUM(P.qty)

    From           Purchase P

    Group by    P.cust_ID, P.item_ID

    Having       SUM(P.qty)>=3

    这种在给出大量输入数据元组的情况下,使用having字句中的阈值来进行过滤的查询方法就叫做冰山查询。输出结果可以看作“冰山顶”,而“冰山”是输入数据。

    这种冰山查询在数据仓库的数据概况分析阶段、数据质量检查阶段和数据挖掘的购物篮分析中都经常使用。而且,冰山查询也是面试中出现频率非常高的一道题,经常用来检测SQL能力。

    操作集市――oper mart

    在数据仓库领域有一个概念叫Oper Mart,中文一般翻译为“操作集市”。操作集市是为了企业战术性的分析提供支持,它的数据来源是操作数据存储(ODS)。它是ODS在分析功能上的扩展,使用户可以对操作型数据进行多维分析。

    一个操作集市应该有如下特征:

    1.操作集市是ODS的子集,数据来源于ODS,用于战略分析和报表。

    2.操作集市中的数据和ODS中的数据同步更新。

    3.操作集市以多维技术进行建模,即星型结构。

    4.操作集市是一个临时的结构,当不在需要时会清掉所有数据,即不保存历史数据。

    操作集市和数据集市很相似,但是它不能用来取代用于战略性分析的数据集市。由于操作集市的数据来源于ODS,所以它的数据比数据集市的数据要新。但是出于容量的考虑,操作集市中不保存历史数据,是一个临时的结构。

    操作数据存储――operational data store

    Kimball对操作数据存储的定义是,面向主题的、集成的、经常更新的细节数据存储,用集成的数据来支持事务系统。Kimball也认可Inmon对ODS的分类,但是他认为ODS应该以星型结构来进行建模。

    虽然Kimball对操作数据存储(ODS)的定义和Inmon基本上一样,但是他对操作数据存储的理解、作用与实现和Inmon有着较大的不同。

    Kimball认为ODS在两种情况下是需要的:第一种情况是提供操作型报表,这些报表需要提供面向主题的、集成的数据,所以操作型的源系统无法提供;这些报表和数据仓库中的报表也不相同,因为它们可以是一些定制好的,写死在程序中的报表。第二种情况是需要提供实时的信息时,由于数据仓库的更新频率一般都是24小时,而用户会有更急切的需求来了解数据源的信息,这时,建立操作数据存储是很有必要的。

    对于ODS是保存最细粒度数据的地方的说法,Kimball认为对于最细粒度数据,即原子数据层,应该保存在数据仓库中,而且应该置于维度框架和总线架构中。

    代理关键字--surrogate key

    在数据仓库领域有一个概念叫Surrogate key,中文一般翻译为“代理关键字”。代理关键字一般是指维度表中使用顺序分配的整数值作为主键,也称为“代理键”。代理关键字用于维度表和事实表的连接。

    代理关键字的称呼有surrogate keysmeaningless keysinteger keysnonnatural keysartificial keyssynthetic keys等。与之相对的自然关键字的称呼有natural keyssamat keys等。

    Kimball的维度建模领域里,是强烈推荐使用代理关键字的。在维度表和事实表的每一个联接中都应该使用代理关键字,而不应该使用自然关键字或者智能关键字(Smart Keys)。数据仓库中的主键不应该是智能的,也就是说,要避免通过主键的值就可以了解一些业务信息。当然,退化维度作为事实表的复合主键之一时例外。

    使用代理关键字,有很多优点。

    1.使用代理关键字能够使数据仓库环境对操作型环境的变化进行缓冲。也就是说,当数据仓库需要对来在多个操作型系统的数据进行整合时,这些系统中的数据有可能缺乏一致的关键字编码,即有可能出现重复,这时代理关键字可以解决这个问题。

    2.使用代理关键字可以带来性能上的优势。和自然关键字相比,代理关键字很小,是整型的,可以减小事实表中记录的长度。这样,同样的IO就可以读取更多的事实表记录。另外,整型字段作为外键联接的效率也很高。

    3.使用代理关键字可以建立一些不存在的维度记录,例如“不在促销之列”,“日期待定”,“日期不可用”等维度记录。

    4.使用代理关键字可以用来处理缓慢变化维。维度表数据的历史变化信息的保存是数据仓库设计的实施中非常重要的一部分。Kimball的缓慢变化维处理策略的核心就是使用代理关键字。

    当然,使用代理关键字也有它的缺点,代理关键字的使用使数据加载变得非常复杂。有关使用代理关键字的维度表和事实表的加载方法在ETL Toolkit中有详细的描述。使用代理关键字是一个从长远考虑的策略。

    多值维度――multivalue dimension

    在维度建模的数据仓库中,有一种维度表叫multivalue dimension,中文一般翻译为“多值维度”。

    多值维度有两种情况,第一种情况是指维度表中的某个属性字段同时有多个值。举例来说,一个帐户维度表中,帐户持有人姓名,可能会有多个顾客。这样,一个帐户对应多个顾客姓名,一个顾客也可以有多个帐户,它们之间是多对多的关系。正因为一个帐户可能会有多个对应的顾客,所以不能直接将顾客ID放入帐户维度表中。而帐户维度表中的这种情况就叫做多值维度。

    多值维度的第二种情况是事实表在某个维度表中有多条对应记录。举例来说,对于一个健康护理单分列项事实表来说,它的粒度是一个健康护理单,但是该护理单却有可能有多次诊断,即该事实表与诊断维度的是一对多的关系。这个与事实表粒度不匹配的诊断维度也称之为多值维度。

    处理多值维度最好的办法是降低事实表的粒度。如第二种情况中,将健康护理单分列项事实表的粒度降低到具体的诊断粒度上,这样就避免了多值维度的出现。这种处理方式也是维度建模的一个原则,即事实表应该建立在最细粒度上。这样的处理,需要对事实表的事实进行分摊。

    但是有些时候,事实表的粒度是不能降低的,多值维度的出现是无法避免的。如第一种情况中,事实表是月帐户快照事实表,这张事实表与顾客维度没有直接的关系,不能将数据粒度进行细分,即使细分的话帐户余额也很难分摊。这时,可以采用桥接表技术进行处理。在帐户维度表和顾客维度表之间建立个帐户-顾客桥接表。这个桥接表可以解决掉帐户维度和顾客维度之间的多对多关系,也解决掉的帐户维度表的多值维度问题。

    总之,多值维度是应该尽量避免的,它给数据处理带来了很大的麻烦。如果多值维度不能避免的话,应该建立桥接表来进行处理。

    非事实型事实表――factless fact table

    在维度建模的数据仓库中,有一种事实表叫Factless Fact Table,中文一般翻译为“非事实型事实表”。在事实表中,通常会保存十个左右的维度外键和多个度量事实,度量事实是事实表的关键所在。在非事实型事实表中没有这些度量事实,只有多个维度外键。非事实型事实表通常用来跟踪一些事件或者说明某些活动的范围。下面举例来进行说明。

    第一类非事实型事实表是用来跟踪事件的事实表。例如:学生注册事件,学校需要对学生按学期进行跟踪。维度表包括学期维度、课程维度、系维度、学生维度、注册专业维度和取得学分维度,而事实表是由这些维度的主键组成,事实只有注册数,并且恒为1。这样的事实表可以回答大量关于大学开课注册方面的问题,主要是回答各种情况下的注册数。

    第二类非事实型事实表是用来说明某些活动范围的事实表。例如:促销范围事实表。通常销售事实表可以回答如促销商品的销售情况,但是对于那些没有销售出去的促销商品没法回答。这时,通过建立促销范围事实表,将商场需要促销的商品单独建立事实表保存。然后,通过这个促销范围事实表和销售事实表即可得出哪些促销商品没有销售出去。这样的促销范围事实表只是用来说明促销活动的范围,其中没有任何事实度量。

    合并事实表--consolidated/ merged fact table

    在数据仓库领域有一个概念叫merged fact table,或者consolidated fact table,中文一般都翻译为“合并事实表”。合并事实表是将不同事实表的事实合并到同一张事实表的建模方法,合并的事实要保证在相同的粒度。

    这种建模方法通常被用来横跨多个业务主题域来建立数据集市,Kimball将这样的数据集市称为第二级的数据集市。使用合并事实表技术,可以避免性能较差的交叉探察操作。

    但是,这种合并事实表和使用交叉探察操作还有着细微的不同,在一些基础表中没有记录的时候,合并事实表中可能会存储一条记录,字段值保存为零。

    合并事实表可以给数据仓库带来很大的性能提升,提供的跨主题的事实数据也给用户带来了很大的方便。但是,合并事实表给ETL工作带来了较大的麻烦。对于合并事实表中涉及到的维度,需要在数据准备区保证它们是一致性维度。

    缓慢变化维――slowly changing dimension

    维度建模的数据仓库中,有一个概念叫Slowly Changing Dimensions,中文一般翻译成“缓慢变化维”,经常被简写为SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,有时也简称为处理SCD的问题。

    处理缓慢变化维的方法通常分为三种方式。

    第一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保留历史数据,无法分析历史变化信息。第一种方式通常简称为“TYPE 1

    第二种方式是添加维度行。这样处理,需要代理键的支持。实现方式是当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原维度记录保持关联。第二种方式通常简称为“TYPE 2

    第三种方式是添加属性列。这种处理的实现方式是对于需要分析历史信息的属性添加一列,来记录该属性变化前的值,而本属性字段使用TYPE 1来直接覆盖。这种方式的优点是可以同时分析当前及前一次变化的属性值,缺点是只保留了最后一次变化信息。第三种方式通常简称为“TYPE 3”。

    在实际建模中,我们可以联合使用三种方式,也可以对一个维度表中的不同属性使用不同的方式,这些,都需要根据实际情况来决定,但目的都是一样的,就是能够支持方便的分析历史变化情况。

    即席查询――ad hoc queries

    在数据仓库领域有一个概念叫Ad hoc queries,中文一般翻译为“即席查询”。即席查询是指那些用户在使用系统时,根据自己当时的需求定义的查询。

    即席查询生成的方式很多,最常见的就是使用即席查询工具。一般的数据展现工具都会提供即席查询的功能。通常的方式是,将数据仓库中的维度表和事实表映射到语义层,用户可以通过语义层选择表,建立表间的关联,最终生成SQL语句。

    即席查询与通常查询从SQL语句上来说,并没有本质的差别。它们之间的差别在于,通常的查询在系统设计和实施时是已知的,所有我们可以在系统实施时通过建立索引、分区等技术来优化这些查询,使这些查询的效率很高。而即席查询是用户在使用时临时生产的,系统无法预先优化这些查询,所以即席查询也是评估数据仓库的一个重要指标。

    即席查询的位置通常是在关系型的数据仓库中,即在EDW或者ROLAP中。多维数据库有自己的存储方式,对即席查询和通常查询没有区别。

    在一个数据仓库系统中,即席查询使用的越多,对数据仓库的要求就越高,对数据模型的对称性的要求也越高。对称性的数据模型对所有的查询都是相同的,这也是维度建模的一个优点。

    交叉探察――drill across

    在维度建模的数据仓库中,有一种操作叫Drill Across ,中文一般翻译为“交叉探查”。

    在基于总线架构(Bus Architecture)的维度建模中,大部分的维度表是由事实表共有的。比如“营销事务事实表”和“库存快照事实表”就会有相同的维度表,“日期维度”、“产品维度”和“商场维度”。这时,如果有个需求是想按共有维度来对比查看销售和库存的事实,这时就需要发出两个SQL,分别查出按维度统计出的销售数据和库存数据。然后再基于共有的维度进行外连接,将数据合并。这种发出多路SQL再进行合并的操作就是交叉探查。

    当这种交叉探查的需求很常用时,有一种建模方法可以避免交叉探查,就是合并事实表(Consolidated Fact Table)。合并事实表是指将位于不同事实表中处于相同粒度的事实进行组合的一种建模方法。即新建立一个事实表,它的维度是两个或多个事实表的相同维度的集合,事实是几个事实表中感兴趣的事实。这个事实表的数据和其他事实表的数据一样来自Staging Area。

    合并事实表在性能和易用性上都比交叉探查要好,但是被组合的事实表必须处于相同的粒度和维度层次上。

    角色模仿维度--role-playing dimensions

    在数据仓库领域有一个概念叫Role-playing dimensions,中文一般翻译为“角色模仿维度”。角色模仿维度是为了处理一个维度在一个事实表中同时出现多次而使用的一种技术处理手段。

    在建立了角色模仿维度以后,在底层只有一个物理表存在,但是针对这个物理表会建立多个角色提供给数据访问工具,而且对数据访问工具来说这多个角色是不同的。例如对与累计快照事实表中会出现多个日期字段联接到日期维度。这时就可以针对日期维度建立多个角色模仿维度。

    角色模仿维度的建立方法通常是使用视图来完成。例如订单日期维度表如下所示:

    CREATE VIEW order_date(order_date_key, order_day_of_week, order_month, … )

    AS SELECT data_key, day_of_week, month, … FROM DATA

    使用同样的方式还可以建立多个不同日期的角色模仿维度。

    聚集事实表--aggregated fact table

     

    累计快照事实表--accumulating snapshot fact table

     

    桥接表--bridge table

     

    切片事实表--sliced fact table

    在数据仓库领域有一个概念叫sliced fact table,中文一般翻译为“切片事实表”。切片事实表中的字段结构和相应的基础表完全相同,差别在于存储的记录的范围。切片事实表中保存记录的是相应基础表中记录的子集,记录数通常与某个维度记录数相同。

    这种建模方法一般用来满足特殊需要,如需要分析某些特殊问题时,可以将与之相关的数据切片出来。相反,这种方法也常用于合并存储在不同地区的数据,即各个地区都保存自己地区的数据,总部和所有地区的表结构都相同,然后总部将所有地区的数据合并在一起。

    切片事实表的结构与相对应的基础表相同,数据来源于相对应的基础表。切片事实表由于缩小了表中数据的记录数,所以查询的效率得到了很大的提高。

    事实表――fact table

    在维度建模的数据仓库中,事实表是指其中保存了大量业务度量数据的表。事实表中的度量值一般称为事实。在事实表中最有用的事实就是数字类型的事实和可加类型的事实。事实表的粒度决定了数据仓库中数据的详细程度。

    一般来说,以粒度作为化分依据,主要有三种事实表,分别是事务粒度事实表(Transaction Grain Fact Table),周期快照粒度事实表(Periodic Snapshot Grain Fact Table)和累积快照粒度事实表(Accumulating Snapshot Grain Fact Table)

    事务粒度事实表中的一条记录代表了业务系统中的一个事件。事务出现以后,就会在事实中出现一条记录。事务粒度事实表也称为原子粒度。典型的例子是销售单分列项事实表。

    周期快照粒度事实表用来记录有规律的,可预见时间间隔的业务累计数据。通常的时间间隔可以是每天、每周或者每月。典型的例子是库存日快照事实表。

    累积快照事实表一般用来涵盖一个事务的生命周期内的不确定的时间跨度。典型的例子是KDT#2中描述的具有多个日期字段的发货事实表。

    通常来说,事务和快照是建模中的两个非常重要的特点,将两者相结合可以使模型建立的更完整。

    从用途的不同来说,事实表可以分为三类,分别是原子事实表,聚集事实表和合并事实表。

    原子事实表(Atom Fact Table)是保存最细粒度数据的事实表,也是数据仓库中保存原子信息的场所。

    聚集事实表(Aggregated Fact Table)是原子事实表上的汇总数据,也称为汇总事实表。即新建立一个事实表,它的维度表是比原维度表要少,或者某些维度表是原维度表的子集,如用月份维度表代替日期维度表;事实数据是相应事实的汇总,即求和或求平均值等。在做数据迁移时,当相关的维度数据和事实数据发生变化时,聚集事实表需要做相应的刷新。物化视图是实现聚集事实表的一种有效方式,可以设定刷新方式,具体功能由DBMS来实现。

    合并事实表(Consolidated Fact Table)是指将位于不同事实表中处于相同粒度的事实进行组合建模而成的一种事实表。即新建立一个事实表,它的维度是两个或多个事实表的相同维度的集合;事实是几个事实表中感兴趣的事实。在Kimball的总线架构中,由合并事实表为主组成的合并数据集市称为二级数据集市。合并事实表的粒度可以是原子粒度也可以是聚集粒度。在做数据迁移时,当相关的原子事实表的数据有改变时,合并事实表的数据需要重新刷新。合并事实表和交叉探察是两个互补的操作。

    聚集事实表和合并事实表的主要差别是合并事实表一般是从多个事实表合并而来。但是它们的差别不是绝对的,一个事实表既是聚集事实表又是合并事实表是很有可能的。因为一般合并事实表需要按相同的维度合并,所以很可能在做合并的同时需要进行聚集,即粒度变粗。

    事实维度--fact dimension

     

    事务事实表--transaction fact table

     

    审计维度--audit dimension

     

    数据世系――data lineage

    数据仓库中有一个概念叫做Data Lineage,中文一般翻译为“数据世系”。数据世系描述的是从源系统抽取数据开始,经过数据转换到最终的数据加载的整个过程中各种信息。

    数据世系信息需要留下详细的文档记载。数据世系包括源系统的数据库中数据定义以及该数据在数据仓库中的最终位置等信息。

    数据世系是数据仓库的元数据中最重要的一部分。这部分元数据的产生位置是在ETL的处理过程中。

    如果在ETL的处理过程中使用的ETL工具的话,ETL工具可以记录下元数据的一部分,但是这部分一般都是数据的属性描述,而不是完全的数据世系。换一句说,完全依靠ETL工具来维护元数据是不够的。

    双桶连接--double-barreled joins

     

    退化维度――degenerate dimension

    在维度建模的数据仓库中,有一种维度叫Degenerate Dimension,中文一般翻译为“退化维度”。这种退化维度一般都是事务的编号,如订单编号、发票编号等。这类编号需要保存到事实表中,但是不需要对应的维度表,所以称为退化维度。

    退化维度是维度建模领域中的一个非常重要的概念,它对理解维度建模有着非常重要的作用,尤其是对维度建模的入门者。

    退化维度经常会和其他一些维度一起组合成事实表的主键。在Kimball提出的维度建模中,事实表应该保存最细粒度的数据。所以对于象销售单这样的事实表来说,需要销售单编号和产品来共同作为主键,而不能用销售日期、商场、产品等用来分析的维度共同作为主键。

    退化维度在分析中可以用来做分组使用。它可以将同一个事务中销售的产品集中在一起。

    微型维度――minidimension

    维度建模的数据仓库中,有一种维度叫minidimension,中文一般翻译成“微型维度”。微型维度的提出主要是为了解决快变超大维度(rapidly changing monster dimension)。

    以客户维度举例来说,如果维度表中有数百万行记录或者还要多,而且这些记录中的字段又经常变化,这样的维度表一般称之为快变超大维度。对于快变超大维度,设计人员一般不会使用TYPE 2的缓慢变化维处理方法,因为大家都不愿意向本来就有几百万行的维度表中添加更多的行。

    这时,有一项技术可以解决这个问题。解决的方法是,将分析频率比较高或者变化频率比较大的字段提取出来,建立一个单独的维度表。这个单独的维度表就是微型维度表。

    微型维度表有自己的关键字,这个关键字和原客户维度表的关键字一起进入事实表。有时为了分析的方便,可以把微型维度的关键字的最新值作为外关键字进入客户维度表。这时一定要注意,这个外关键字必须做TYPE 1型处理。

    在微型维度表中如果有像收入这样分布范围较广的属性时,应该将它分段处理。比如,存储¥31257.98这样过于分散的数值就不如存储¥30000-¥34999这样的范围。这样可以极大的减少微型维度中的记录数目,也给分析带来方便。

    蜈蚣事实表――centipede fact table

    在数据仓库领域有一个概念叫Centipede fact table,中文一般翻译为“蜈蚣事实表”。蜈蚣事实表是指那些一张事实表中有太多维度的事实表。连接在事实表两边的维度表过多,看起来就像蜈蚣一样,所以称为“蜈蚣事实表”。

    通常来说,蜈蚣事实表的出现是由于建模师对事实表和维度表逆规范化过了头。例如,不单将产品主键放入事实表中,对于产品层级结构中的每一层的主键都放入事实表中,这样事实表中与产品相关的就会有产品ID、商标ID、子类ID、类别ID等多个外键。同样,也有建模师将日期相关的日期ID、月ID、年ID都放入事实表中。这些都将产生蜈蚣事实表,使自己落入维度过多的陷阱。

    蜈蚣事实表虽然使查询效率有所提高,但是伴之而来的是存储空间的大量增长。在维度建模的数据仓库中,维度表的字段个数可以尽可能的增加,但是事实表的字段要尽量减少,因为相比而言,事实表的记录数要远远大于维度表的记录数。

    一般来说,事实表相关的维度在15个以下为正常,如果维度个数超过25个,就出现了维度过多的蜈蚣事实表。这时,需要做的事情是自己核查,将相关的维度进行合并,减少维度的个数。

    稀疏事实表--sparse facts

     

    旋转事实表--pivoted fact table

    在数据仓库领域有一个概念叫pivoted fact table,中文一般翻译为“旋转事实表”。旋转事实表是将一条记录中的多个事实字段转化为多条记录,其中每条记录保存一个事实字段的一种建模方法。或者反过来,也可以由多条记录转化为一条记录。

    旋转事实表建模方法的使用通常是为了简化前端数据展现的查询。它通过改变后端的事实记录存储方式,使相应的查询需求的性能得到的极大的提高。如果在SQL或者查询工具中进行这种转换会非常麻烦,效率也很差。

    和合并事实表类似,有时当基础表中没有记录时,旋转事实表也要存储一些零值在里面。

    一致性事实――comformed fact

    维度建模的数据仓库中,有一个概念叫Conformed Fact,中文一般翻译为“一致性事实”。一致性事实是Kimball的多维体系结构(MD)中的三个关键性概念之一,另两个是总线架构(Bus Architecture)和一致性维度(Conformed Dimension)。

    在建立多个数据集市时,完成一致性维度的工作就已经完成了一致性的80%-90%的工作量。余下的工作就是建立一致性事实。

    一致性事实和一致性维度有些不同,一致性维度是由专人维护在后台(Back Room),发生修改时同步复制到每个数据集市,而事实表一般不会在多个数据集市间复制。需要查询多个数据集市中的事实时,一般通过交叉探查(drill across)来实现。

    为了能在多个数据集市间进行交叉探查,一致性事实主要需要保证两点。第一个是KPI的定义及计算方法要一致,第二个是事实的单位要一致性。如果业务要求或事实上就不能保持一致的话,建议不同单位的事实分开建立字段保存。

    这样,一致性维度将多个数据集市结合在一起,一致性事实保证不同数据集市间的事实数据可以交叉探查,一个分布式的数据仓库就建成了。

    一致性维度――comformed dimension

    维度建模的数据仓库中,有一个概念叫Conformed Dimension,中文一般翻译为“一致性维度”。一致性维度是Kimball的多维体系结构(MD)中的三个关键性概念之一,另两个是总线架构(Bus Architecture)和一致性事实(Conformed Fact)。

    在多维体系结构中,没有物理上的数据仓库,由物理上的数据集市组合成逻辑上的数据仓库。而且数据集市的建立是可以逐步完成的,最终组合在一起,成为一个数据仓库。如果分步建立数据集市的过程出现了问题,数据集市就会变成孤立的集市,不能组合成数据仓库,而一致性维度的提出正式为了解决这个问题。

    一致性维度的范围是总线架构中的维度,即可能会在多个数据集市中都存在的维度,这个范围的选取需要架构师来决定。一致性维度的内容和普通维度并没有本质上区别,都是经过数据清洗和整合后的结果。

    一致性维度建立的地点是多维体系结构的后台(Back Room),即数据准备区。在多维体系结构的数据仓库项目组内需要有专门的维度设计师,他的职责就是建立维度和维护维度的一致性。在后台建立好的维度同步复制到各个数据集市。这样所有数据集市的这部分维度都是完全相同的。建立新的数据集市时,需要在后台进行一致性维度处理,根据情况来决定是否新增和修改一致性维度,然后同步复制到各个数据集市。这是不同数据集市维度保持一致的要点。

    在同一个集市内,一致性维度的意思是两个维度如果有关系,要么就是完全一样的,要么就是一个维度在数学意义上是另一个维度的子集。例如,如果建立月维度话,月维度的各种描述必须与日期维度中的完全一致,最常用的做法就是在日期维度上建立视图生成月维度。这样月维度就可以是日期维度的子集,在后续钻取等操作时可以保持一致。如果维度表中的数据量较大,出于效率的考虑,应该建立物化视图或者实际的物理表。

    这样,维度保持一致后,事实就可以保存在各个数据集市中。虽然在物理上是独立的,但在逻辑上由一致性维度使所有的数据集市是联系在一起,随时可以进行交叉探察等操作,也就组成了数据仓库。

    因果维度--casual dimension

     

    预连接聚集表――pre-joined aggregate table

    在数据仓库领域有一个概念叫pre-joined aggregagte table,中文一般翻译为“预连接聚集表”。预连接聚集表是通过对事实表和维度表的联合查询而生成的一类汇总表。在预连接聚集表中,保存有维度表中的描述信息和事实表的事实值。

    通过预连接,可以避免在用户查询时RDBMS的连接操作,所以预连接聚集表的查询效率要高很多。

    典型的预连接聚集表如下例所示的销售事实表,

    产品名称

    商标名称

    年份

    月份

    销售人员名称

    销售量

    销售金额

    在这个销售事实表,前五个字段都来自于维度表的描述字段,后两个字段来自于事实表的事实字段。这样在用户提交查询后,RDBMS就不需要连接维度表和事实表了,只需直接在该表中查询即可。

    预连接聚集表有一个很大的缺点,它需要占用大量的存储空间。预连接事实表的记录和事实表一样多,每条记录的长度和维度表一样长,所以对存储空间的需求是非常大的。除非情况特殊,或者该表是高度汇总的,否则不建议建立预连接聚集表。在建立预连接聚集表时需要平衡效率和存储空间的矛盾。

    预连接聚集表的生成方式较为简单,直接使用SQL查询即可生成。

    如果聚集导航器的功能很强大的话,也可以处理预连接聚集表。否则,需要用户理解预连接聚集表,并在SQL中直接使用该表。

    预连接聚集表在数据仓库领域有着很重要的作用,是汇总表的一种。它的优点和缺点都很明显,在使用时需要综合考虑。

    原子事实表--atom fact table

     

    杂项维度――junk dimension

    在维度建模的数据仓库中,有一种维度叫Junk Dimension,中文一般翻译为“杂项维度”。杂项维度是由操作系统中的指示符或者标志字段组合而成,一般不在一致性维度之列。

    在操作系统中,我们定义好各种维度后,通常还会剩下一些在小范围内取离散值的指示符或者标志字段。例如:支付类型字段,包括现金和信用卡两种类型,在源系统中它们可能是维护在类型表中,也可能直接保存在交易表中。

    一张事实表中可能会存在好几个类似的字段,如果作为事实存放在事实表中,会导致事实表占用空间过大;如果单独建立维度表,外键关联到事实表,会出现维度过多的情况;如果将这些字段删除,会有人不同意。

    这时,我们通常的解决方案就是建立杂项维度,将这些字段建立到一个维度表中,在事实表中只需保存一个外键。几个字段的不同取值组成一条记录,生成代理键,存入维度表,并将该代理键保存入相应的事实表字段。建议不要直接使用所有的组合生成完整的杂项维度表,在抽取时遇到新的组合时生成相应记录即可。杂项维度的ETL过程比一般的维度略为复杂。

    总线架构――bus architecture

    维度建模的数据仓库中,有一个概念叫Bus Architecture,中文一般翻译为“总线架构”。总线架构是Kimball的多维体系结构(MD)中的三个关键性概念之一,另两个是一致性维度(Conformed Dimension)和一致性事实(Conformed Fact)。

    在多维体系结构(MD)的数据仓库架构中,主导思想是分步建立数据仓库,由数据集市组合成企业的数据仓库。但是,在建立第一个数据集市前,架构师首先要做的就是设计出在整个企业内具有统一解释的标准化的维度和事实,即一致性维度和一致性事实。而开发团队必须严格的按照这个体系结构来进行数据集市的迭代开发。

    一致性维度就好比企业范围内的一组总线,不同数据集市的事实的就好比插在这组总线上的元件。这也是称之为总线架构的原因。

    实际设计过程中,我们通常把总线架构列表成矩阵的形式,其中列为一致性维度,行为不同的业务处理过程,即事实,在交叉点上打上标记表示该业务处理过程与该维度相关。这个矩阵也称为总线矩阵(Bus Matrix)。

    总线架构和一致性维度、一致性事实共同组成了Kimball的多维体系结构的基础,也建立了一套可以逐步建立数据仓库的方法论。由于总线架构是多维体系结构的核心,所以我们有时就把多维体系结构直接称为总线架构。

    支架维度--outrigger dimension

     

    周期快照事实表--periodic snapshot fact table

     

    展开全文
  • 关于数据仓库几个术语的个人见解

    千次阅读 2014-08-26 14:32:40
    出的指标和数据集市出的指标有相似或者在主题上甚至可以合并在一起,但为什么又不放在数据集市呢?原因可能有很多,通常是:数据集市和 BI 建设时间不同步,导致迁移困难或者是数据仓库团队没那么多人力一一满足各个...
    
    

    数据仓库(Data Warehouse简称DW

    1.目前最通用的定义是数据仓库就是面题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。

    2.一般来说,数据仓库给人的最直观感受是,长时间跨度(5-10年)集成了企业的多个数据源。

    3.面向主题,则是在数据仓库建设过程中,根据数据的业务特性和需求分类,对源数据进行抽象和归类形成主题。主题也可分为主题域和主题,一个主题域可包含多个主题,每个主题域里面都会有一个或一组公共码键将里面的所有主题串联起来。例如:营销主题域,可能包括:客户主题、市场主题、供应商主题等。


    数据集市Data Mart 简称 DM

    1.数据集市,是在数据仓库的基础上,根据部门需求或主题划分具体的集市,数据集市比数据仓库规模小,但针对性更强。例如:财经集市、CRM集市、风险集市等。

    2.数据集市比数据仓库的粒度更高,因为常常要在明细数据的基础上汇总计算出相应的指标供相关人员查阅,例如:金融领域,会按月汇总客户相关的KIP值(基金净值、基金份额,国债净值、国债份额、逾期金额、逾期期数);制造业,会按月汇总产品相关的价格指标(计划成本、实际成本、折扣成本)


    商业智能(Business Intelligence 简称 BI

    1.BI是指利用相关的报表工具和数据清理技术,将企业数据进行商业分析,提供数据钻取、切片以及旋转功能,能够帮助决策人员从多个角度看待数据情况。

    2.BI往往是跟数据仓库相辅相成的,一方面可能由于企业的战略需求要引进BI从而需要建设数据仓库将企业数据统一整合和清理,以方便决策,另一方面也可能是数据仓库已初具规模,引进相关的BI系统,作为直接的创收点。

    3.当然,在现实工作当中也有些是不走数据仓库层直接出BI报表的,大多数是处于成本和效益回收速度的考量。

    4.有些BI出的指标和数据集市出的指标有相似或者在主题上甚至可以合并在一起,但为什么又不放在数据集市呢?原因可能有很多,通常是:数据集市和BI建设时间不同步,导致迁移困难或者是数据仓库团队没那么多人力一一满足各个部门的需求,从而有些部门自行聘请BI团队,建设本部门的BI的系统。


    ETL(Extract-Transform-Load)

    1.数据抽取、清理、装载是数据仓库建设的核心一环,也是需要花费巨大人天的部分。没有ETL将源数据抽取、清理、再加载到数据仓库,数据仓库永远只是个模型而已(BI也同样如此)。

    2.狭义一点的ETL,可以认为是工具。ETL工具有很多,例如:传统行业大多使用 DataStage Informatica  互联网企业偏向于开源的Hadoop工具。

    但是不管使用哪种工具,其主要的开发思想还是跟标准的SQL很相近,只是做了图形化和封装。当然一般ETL工具还提供有调度功能和元数据管理功能。



    元数据(Meta Data

    1.数据仓库中的元数据大多的定义是,用于描述数据仓库的组成架构、业务数据情况、数据清洗规则的一整套相关元数据的表,是一种描述数据的数据。

    2.元数据一般情况下,会优先定义数据源、数据仓库层次和主题、数据仓库目标表信息、数据仓库ETL信息。良好的元数据管理,可以让技术人员或者业务人员通过这些元数据,就能够快速地看清数据仓库目前的数据规模和数据情况。

    

     

    展开全文
  • GitHub 术语解释

    万次阅读 多人点赞 2017-03-31 09:02:33
    为了大家进一步了解和使用 GitHub,在本文中,咱们就一起来看看 GitHub 的常用术语,也可以说是基本概念:Repository:简称“Repo”,可以理解为“仓库”,咱们的项目就存放在仓库之中,也就是说,如果咱们想要建立...

    githunb

    为了大家进一步了解和使用 GitHub,在本文中,我们一起来看看 GitHub 的常用术语,也可以说是基本概念:

    • Repository:简称Repo,可以理解为“仓库”,我们的项目就存放在仓库之中。也就是说,如果我们想要建立项目,就得先建立仓库;有多个项目,就建立多个仓库。

    • Issues:可以理解为“问题”,举一个简单的例子,如果我们开源一个项目,如果别人看了我们的项目,并且发现了bug,或者感觉那个地方有待改进,他就可以给我们提出Issue,等我们把Issues解决之后,就可以把这些Issues关闭;反之,我们也可以给他人提出Issue

    • Star:可以理解为“点赞”,当我们感觉某一个项目做的比较好之后,就可以为这个项目点赞,而且我们点赞过的项目,都会保存到我们的Star之中,方便我们随时查看。在 GitHub 之中,如果一个项目的点星数能够超百,那么说明这个项目已经很不错了。

    • Fork:可以理解为“拉分支”,如果我们对某一个项目比较感兴趣,并且想在此基础之上开发新的功能,这时我们就可以Fork这个项目,这表示复制一个完成相同的项目到我们的 GitHub 账号之中,而且独立于原项目。之后,我们就可以在自己复制的项目中进行开发了。

    • Pull Request:可以理解为“提交请求”,此功能是建立在Fork之上的,如果我们Fork了一个项目,对其进行了修改,而且感觉修改的还不错,我们就可以对原项目的拥有者提出一个Pull请求,等其对我们的请求审核,并且通过审核之后,就可以把我们修改过的内容合并到原项目之中,这时我们就成了该项目的贡献者。

    • Merge:可以理解为“合并”,如果别人Fork了我们的项目,对其进行了修改,并且提出了Pull请求,这时我们就可以对这个Pull请求进行审核。如果这个Pull请求的内容满足我们的要求,并且跟我们原有的项目没有冲突的话,就可以将其合并到我们的项目之中。当然,是否进行合并,由我们决定。

    • Watch:可以理解为“观察”,如果我们Watch了一个项目,之后,如果这个项目有了任何更新,我们都会在第一时候收到该项目的更新通知。

    • Gist:如果我们没有项目可以开源或者只是单纯的想分享一些代码片段的话,我们就可以选择Gist。不过说心里话,如果不翻墙的话,Gist并不好用。

    最后,附上博主的 GitHub 账号,欢迎大家 FollowCharies Gavin


    ———— ☆☆☆ —— 返回 -> 史上最简单的 GitHub 教程 <- 目录 —— ☆☆☆ ————

    展开全文
  • BI大数据名词术语

    千次阅读 2017-03-17 15:04:07
    大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。... 搜索、合并、显示数据的过程 算法 (Algorithms) – 可以完成某种数据分析的数学公式 分析法 (Analytics) – 用于发现数据的内在涵义

    大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解,部分定义参考了相应的博客文章。


    A

    • 聚合 (Aggregation) – 搜索、合并、显示数据的过程
    • 算法 (Algorithms) – 可以完成某种数据分析的数学公式
    • 分析法 (Analytics) – 用于发现数据的内在涵义
    • 异常检测 (Anomaly detection) – 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers, exceptions, surprises, contaminants.他们通常可提供关键的可执行信息
    • 匿名化 (Anonymization) – 使数据匿名,即移除所有与个人隐私相关的数据
    • 应用 (Application) – 实现某种特定功能的计算机软件
    • 人工智能 (Artificial Intelligence) – 研发智能机器和智能软件,这些智能设备能够感知周遭的环境,并根据要求作出相应的反应,甚至能自我学习。

    B

    • 行为分析法 (Behavioural Analytics) – 这种分析法是根据用户的行为如“怎么做”,“为什么这么做”,以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科,它着眼于数据中的人性化模式
    • 大数据科学家 (Big Data Scientist) – 能够设计大数据算法使得大数据变得有用的人
    • 大数据创业公司 (Big data startup) – 指研发最新大数据技术的新兴公司
    • 生物测定术 (Biometrics) – 根据个人的特征进行身份识别
    • B字节 (BB: Brontobytes) – 约等于1000 YB(Yottabytes),相当于未来数字化宇宙的大小。1 B字节包含了27个0!
    • 商业智能 (Business Intelligence) – 是一系列理论、方法学和过程,使得数据更容易被理解

    C

    • 分类分析 (Classification analysis) – 从数据中获得重要的相关性信息的系统化过程; 这类数据也被称为元数据(meta data),是描述数据的数据
    • 云计算 (Cloud computing) – 构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)
    • 聚类分析 (Clustering analysis) – 它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性
    • 冷数据存储 (Cold data storage) – 在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时
    • 对比分析 (Comparative analysis) – 在非常大的数据集中进行模式匹配时,进行一步步的对比和计算过程得到分析结果
    • 复杂结构的数据 (Complex structured data) – 由两个或多个复杂而相互关联部分组成的数据,这类数据不能简单地由结构化查询语言或工具(SQL)解析
    • 计算机产生的数据 (Computer generated data) – 如日志文件这类由计算机生成的数据
    • 并发 (Concurrency) – 同时执行多个任务或运行多个进程
    • 相关性分析 (Correlation analysis) – 是一种数据分析方法,用于分析变量之间是否存在正相关,或者负相关
    • 客户关系管理 (CRM: Customer Relationship Management) – 用于管理销售、业务过程的一种技术,大数据将影响公司的客户关系管理的策略

    D

    • 仪表板 (Dashboard) – 使用算法分析数据,并将结果用图表方式显示于仪表板中
    • 数据聚合工具 (Data aggregation tools) – 将分散于众多数据源的数据转化成一个全新数据源的过程
    • 数据分析师 (Data analyst) – 从事数据分析、建模、清理、处理的专业人员
    • 数据库 (Database) – 一个以某种特定的技术来存储数据集合的仓库
    • 数据库即服务 (Database-as-a-Service) – 部署在云端的数据库,即用即付,例如亚马逊云服务 (AWS: Amazon Web Services)
    • 数据库管理系统 (DBMS: Database Management System) – 收集、存储数据,并提供数据的访问
    • 数据中心 (Data centre) – 一个实体地点,放置了用来存储数据的服务器
    • 数据清洗 (Data cleansing) – 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性
    • 数据管理员 (Data custodian) – 负责维护数据存储所需技术环境的专业技术人员
    • 数据道德准则 (Data ethical guidelines) – 这些准则有助于组织机构使其数据透明化,保证数据的简洁、安全及隐私
    • 数据订阅 (Data feed) – 一种数据流,例如Twitter订阅和RSS
    • 数据集市 (Data marketplace) – 进行数据集买卖的在线交易场所
    • 数据挖掘 (Data mining) – 从数据集中发掘特定模式或信息的过程
    • 数据建模 (Data modelling) – 使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义
    • 数据集 (Data set) – 大量数据的集合
    • 数据虚拟化 (Data virtualization) – 数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等
    • 去身份识别 (De-identification) – 也称为匿名化(anonymization),确保个人不会通过数据被识别
    • 判别分析 (Discriminant analysis) – 将数据分类;按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。
    • 分布式文件系统 (Distributed File System) – 提供简化的,高可用的方式来存储、分析、处理数据的系统
    • 文件存贮数据库 (Document Store Databases) – 又称为文档数据库(document-oriented database), 为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据

    E

    • 探索性分析 (Exploratory analysis) – 在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法
    • E字节 (EB: Exabytes) – 约等于1000 PB(petabytes), 约等于1百万 GB。如今全球每天所制造的新信息量大约为1 EB
    • 提取-转换-加载 (ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程,天善学院有国内唯一的最全的 ETL 学习课程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库

    F

    • 故障切换 (Failover) – 当系统中某个服务器发生故障时,能自动地将运行任务切换到另一个可用服务器或节点上
    • 容错设计 (Fault-tolerant design) – 一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行

    G

    • 游戏化 (Gamification) – 在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。
    • 图形数据库 (Graph Databases) – 运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。
    • 网格计算 (Grid computing) – 将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题,通常是通过云将计算机相连在一起。

    H

    • Hadoop – 一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。
    • Hadoop 数据库 (HBase) – 一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用
    • HDFS – Hadoop 分布式文件系统 (Hadoop Distributed File System);是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统
    • 高性能计算 (HPC: High-Performance-Computing) – 使用超级计算机来解决极其复杂的计算问题

    I

    • 内存数据库 (IMDB: In-memory) – 一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。
    • 物联网 (Internet of Things) – 在普通的设备中装上传感器,使这些设备能够在任何时间任何地点与网络相连。

    J

    • 法律上的数据一致性 (Juridical data compliance) – 当你使用的云计算解决方案,将你的数据存储于不同的国家或不同的大陆时,就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。

    K

    • 键值数据库 (KeyValue Databases) – 数据的存储方式是使用一个特定的键,指向一个特定的数据记录,这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。

    L

    • 延迟 (Latency) – 表示系统时间的延迟
    • 遗留系统 (Legacy system) – 是一种旧的应用程序,或是旧的技术,或是旧的计算系统,现在已经不再支持了。
    • 负载均衡 (Load balancing) – 将工作量分配到多台电脑或服务器上,以获得最优结果和最大的系统利用率。
    • 位置信息 (Location data) – GPS信息,即地理位置信息。
    • 日志文件 (Log file) – 由计算机系统自动生成的文件,记录系统的运行过程。

    M

    • M2M数据 (Machine2Machine data) – 两台或多台机器间交流与传输的内容
    • 机器数据 (Machine data) – 由传感器或算法在机器上产生的数据
    • 机器学习 (Machine learning) – 人工智能的一部分,指的是机器能够从它们所完成的任务中进行自我学习,通过长期的累积实现自我改进。
    • MapReduce – 是处理大规模数据的一种软件框架(Map: 映射,Reduce: 归纳)。
    • 大规模并行处理 (MPP: Massively Parallel Processing) – 同时使用多个处理器(或多台计算机) 处理同一个计算任务。
    • 元数据 (Metadata) – 被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。
    • MongoDB – 一种开源的非关系型数据库(NoSQL database)
    • 多维数据库 (Multi-Dimensional Databases) – 用于优化数据联机分析处理(OLAP)程序,优化数据仓库的一种数据库。
    • 多值数据库 (MultiValue Databases) – 是一种非关系型数据库(NoSQL), 一种特殊的多维数据库:能处理3个维度的数据。主要针对非常长的字符串,能够完美地处理HTML和XML中的字串。

    N

    • 自然语言处理 (Natural Language Processing) – 是计算机科学的一个分支领域,它研究如何实现计算机与人类语言之间的交互。
    • 网络分析 (Network analysis) – 分析网络或图论中节点间的关系,即分析网络中节点间的连接和强度关系。
    • NewSQL – 一个优雅的、定义良好的数据库系统,比SQL更易学习和使用,比NoSQL更晚提出的新型数据库
    • NoSQL – 顾名思义,就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性,能处理超大规模和高并发的数据。

    O

    • 对象数据库 (Object Databases) – (也称为面象对象数据库)以对象的形式存储数据,用于面向对象编程。它不同于关系型数据库和图形数据库,大部分对象数据库都提供一种查询语言,允许使用声明式编程(declarative programming)访问对象.
    • 于对象图像分析 (Object-based Image Analysis) – 数字图像分析方法是对每一个像素的数据进行分析,而基于对象的图像分析方法则只分析相关像素的数据,这些相关像素被称为对象或图像对象。
    • 操作型数据库 (Operational Databases) – 这类数据库可以完成一个组织机构的常规操作,对商业运营非常重要,一般使用在线事务处理,允许用户访问 、收集、检索公司内部的具体信息。
    • 优化分析 (Optimization analysis) – 在产品设计周期依靠算法来实现的优化过程,在这一过程中,公司可以设计各种各样的产品并测试这些产品是否满足预设值。
    • 本体论 (Ontology) – 表示知识本体,用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注: 数据被提高到哲学的高度,被赋予了世界本体的意义,成为一个独立的客观数据世界)
    • 异常值检测 (Outlier detection) – 异常值是指严重偏离一个数据集或一个数据组合总平均值的对象,该对象与数据集中的其他它相去甚远,因此,异常值的出现意味着系统发生问题,需要对此另加分析。

    P

    • 模式识别 (Pattern Recognition) – 通过算法来识别数据中的模式,并对同一数据源中的新数据作出预测
    • P字节 (PB: Petabytes) – 约等于1000 TB(terabytes), 约等于1百万 GB (gigabytes)。欧洲核子研究中心(CERN)大型强子对撞机每秒产生的粒子个数就约为1 PB
    • 平台即服务 (PaaS: Platform-as-a-Service) – 为云计算解决方案提供所有必需的基础平台的一种服务
    • 预测分析 (Predictive analysis) – 大数据分析方法中最有价值的一种分析方法,这种方法有助于预测个人未来(近期)的行为,例如某人很可能会买某些商品,可能会访问某些网站,做某些事情或者产生某种行为。通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇
    • 隐私 (Privacy) – 把具有可识别出个人信息的数据与其他数据分离开,以确保用户隐私。
    • 公共数据 (Public data) – 由公共基金创建的公共信息或公共数据集。

    Q

    • 数字化自我 (Quantified Self) – 使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为
    • 查询 (Query) – 查找某个问题答案的相关信息

    R

    • 再识别 (Re-identification) – 将多个数据集合并在一起,从匿名化的数据中识别出个人信息
    • 回归分析 (Regression analysis) – 确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)
    • RFID – 射频识别; 这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据
    • 实时数据 (Real-time data) – 指在几毫秒内被创建、处理、存储、分析并显示的数据
    • 推荐引擎 (Recommendation engine) – 推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品
    • 路径分析 (Routing analysis) – 针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的

    S

    • 半结构化数据 (Semi-structured data) – 半结构化数据并不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以保证数据的层次结构
    • 情感分析 (Sentiment Analysis) – 通过算法分析出人们是如何看待某些话题
    • 信号分析 (Signal analysis) – 指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。
    • 相似性搜索 (Similarity searches) – 在数据库中查询最相似的对象,这里所说的数据对象可以是任意类型的数据
    • 仿真分析 (Simulation analysis) – 仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量,确保产品性能达到最优
    • 能网格 (Smart grid) – 是指在能源网中使用传感器实时监控其运行状态,有助于提高效率
    • 软件即服务 (SaaS: Software-as-a-Service) – 基于Web的通过浏览器使用的一种应用软件
    • 空间分析 (Spatial analysis) – 空间分析法分析地理信息或拓扑信息这类空间数据,从中得出分布在地理空间中的数据的模式和规律
    • SQL – 在关系型数据库中,用于检索数据的一种编程语言
    • 结构化数据 (Structured data) -可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

    T

    • T字节 (TB: Terabytes) – 约等于1000 GB(gigabytes)。1 TB容量可以存储约300小时的高清视频。
    • 时序分析 (Time series analysis) – 分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的,并且要取自相同时间间隔的连续时间点。
    • 拓扑数据分析 (Topological Data Analysis) – 拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义。
    • 交易数据 (Transactional data) – 随时间变化的动态数据
    • 透明性 (Transparency) – 消费者想要知道他们的数据有什么作用、被作何处理,而组织机构则把这些信息都透明化了。

    U

    • 非结构化数据 (Un-structured data) – 非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。

    V

    • 价值 (Value) – (译者注:大数据4V特点之一) 所有可用的数据,能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。
    • 可变性 (Variability) – 也就是说,数据的含义总是在(快速)变化的。例如,一个词在相同的推文中可以有完全不同的意思。
    • 多样 (Variety) – (译者注:大数据4V特点之一) 数据总是以各种不同的形式呈现,如结构化数据,半结构化数据,非结构化数据,甚至还有复杂结构化数据
    • 高速 (Velocity) – (译者注:大数据4V特点之一) 在大数据时代,数据的创建、存储、分析、虚拟化都要求被高速处理。
    • 真实性 (Veracity) – 组织机构需要确保数据的真实性,才能保证数据分析的正确性。因此,真实性(Veracity)是指数据的正确性。
    • 可视化 (Visualization) – 只有正确的可视化,原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图,可视化指是的复杂的图表,图表中包含大量的数据信息,但可以被很容易地理解和阅读。
    • 大量 (Volume) – (译者注:大数据4V特点之一) 指数据量,范围从Megabytes至Brontobytes

    W

    • 天气数据 (Weather data) – 是一种重要的开放公共数据来源,如果与其他数据来源合成在一起,可以为相关组织机构提供深入分析的依据

    X

    • XML数据库 (XML Databases) – XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联,开发人员可以对XML数据库的数据进行查询,导出以及按指定的格式序列化

    Y

    • Y字节 (Yottabytes) – 约等于1000 ZB (Zettabytes), 约等于250万亿张DVD的数据容量。现今,整个数字化宇宙的数据量为1 YB, 并且将每18年翻一番。

    Z

    • Z字节 (ZB: Zettabytes) – 约等于1000 EB (Exabytes), 约等于1百万 TB。据预测,到2016年全球范围内每天网络上通过的信息大约能达到1 ZB。

    附:存储容量单位换算表

    1 Bit (比特) = Binary Digit

    8 Bits = 1 Byte (字节)

    1,000 Bytes = 1 Kilobyte

    1,000 Kilobytes = 1 Megabyte

    1,000 Megabytes = 1 Gigabyte

    1,000 Gigabytes = 1 Terabyte

    1,000 Terabytes = 1 Petabyte

    1,000 Petabytes = 1 Exabyte

    1,000 Exabytes = 1 Zettabyte

    1,000 Zettabytes = 1 Yottabyte

    1,000 Yottabytes = 1 Brontobyte

    1,000 Brontobytes = 1 Geopbyte





    • 模型从理论上讲,是一个完整的业务分析主题,下含多个立方体.

    • 立方体(Cube):个人理解,只有需要OLAP分析的场景,Cube才有意义,Cube是数据按照维度组合而成的查询集(或者说是一组查询集)。

    这里有个小问题了,模型和立方体有何不同,怎么确定是我需要在现有模型下建立方体还是重新建立一个模型?

    回答比较BT:随便,按你的想法,不过在这里有个小建议,一个机构在创建业务模型之前最好定个章程出来,粗略定义一下模型和立方体,这个和BI理论无关,和业务有关,而且,我可以保证的是,随着项目的进展,你一定会感谢上天当初你这样做了。


    • 维度:我始终认为维度是我们看待数据的角度,怎么样,有点难于理解吧,说点好理解的“不可计算的一定是维度,但可度量的不一定不是维度”。

        维度下面有两个小概念:

        层次(Hierarchy) 和等级(level),等级是你数据分析中最小量化依据,而层次,是等级的分组,各层次间(如果有多个的话)距根等长,这也就意味着,各层次逻辑平等。  



    • 度量:与维度对应,所有可测量的数都可能是度量,当然这句话应该讲:“可计算的不一定是度量,不可计算的一定不是”。

    • OLAP: 专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员

    • OLTP: 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

      






           星形模型和雪花模型具体看这个:http://blog.csdn.net/hzp666/article/details/69567557
    • 星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。

    事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算,甚至可以做20~80分析。这样就可以从不同的角度数字来分析业务主题的情况。

    事实表

    每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如现金登记事务

    所产生的数据,事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性纬度表的主键,而维度表包含事实记录的特性。事实数据表不应该包含描述性的信息,也不应该包含除数字度量字段及使事实与纬度表中对应项的相关索引字段之外的任何数据。

    包含在事实数据表中的“度量值”有两中:一种是可以累计的度量值,另一种是非累计的度量值。最有用的度量值是可累计的度量值,其累计起来的数字是非常有意义的。用户可以通过累计度量值获得汇总信息,例如。可以汇总具体时间段内一组商店的特定商品的销售情况。非累计的度量值也可以用于事实数据表,单汇总结果一般是没有意义的,例如,在一座大厦的不同位置测量温度时,如果将大厦中所有不同位置的温度累加是没有意义的,但是求平均值是有意义的。

    一般来说,一个事实数据表都要和一个或多个纬度表相关联,用户在利用事实数据表创建多维数据集时,可以使用一个或多个维度表。

    维度表

    维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。例如,包含产品信息的维度表通常包含将产品分为食品、饮料、非消费品等若干类的层次结构,这些产品中的每一类进一步多次细分,直到各产品达到最低级别。

    在维度表中,每个表都包含独立于其他维度表的事实特性,例如,客户维度表包含有关客户的数据。维度表中的列字段可以将信息分为不同层次的结构级。

    结论:

    1、事实表就是你要关注的内容;

    2、维度表就是你观察该事务的角度,是从哪个角度去观察这个内容的。

    例如,某地区商品的销量,是从地区这个角度观察商品销量的。事实表就是销量表,维度表就是地区表。


    维度表和事实表的例子:一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。 

           首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据表中维护数据,其它维度数据存储在维度表中。每个维度表与事实数据表直接相关,且通常通过一个键联接到事实数据表中。星型架构是数据仓库比较流向的一种架构。

            事实表是数据仓库结构中的中央表,它包含联系事实与维度表的数字度量值和键。事实数据表包含描述业务(例如产品销售)内特定事件的数据。

            维度表是维度属性的集合。是分析问题的一个窗口。是人们观察数据的特定角度,是考虑问题时的一类属性,属性的集合构成一个维。

     




    展开全文
  • 计算机专业术语及行业术语

    千次阅读 2019-05-20 15:14:27
    java 行业术语 POJO(Plain Ordinary Java Object)简单的Java对象,实际就是普通JavaBeans,是为了避免和EJB混淆所创造的简称 B2B行业术语 sop fbp
  • NIFI术语

    千次阅读 2017-12-14 16:52:25
    它提供了一次性配置密钥和/或信任属性并在整个应用程序中重新使用该配置的能力。 这个想法是,控制器服务不是在每个可能需要它的处理器中配置,而是根据需要提供给任何处理器。 Reporting Task 报告任务在...
  • Git 术语及中英文对照

    千次阅读 2018-11-30 13:18:48
    Git 术语中英文对照 翻译参考了 GitHub 上源码文件,致敬 Jiang Xin worldhello.net@gmail.com 先生。 English 中文 3-way merge 三方合并 abbreviate 简写(的 SHA-1 值) alternate object database ...
  • 自然语言处理术语 NLP术语

    千次阅读 2013-05-10 11:04:30
    collapse 合并 Computational Linguistics 计算语言学 decomposition 分解 definite state automaton 有限状态自动机 forward-backward algorithm 前向-后向算法,前后向算法 machine ...
  • git 术语 对于那些希望跟踪这些天的更改的人来说,版本控制是一个重要的工具。 这对程序员,系统管理员和站点可靠性工程师(SRE)都特别有用。 与以前将.old添加到复制文件中的策略相比,从错误中恢复到已知的良好...
  • 计算机缩写术语完全介绍

    千次阅读 2018-11-06 10:51:38
    计算机缩写术语完全介绍 在使用计算机的过程中,你可能会碰到各种各样的专业术语, 特别是那些英文缩写常让我们不知所云,下面收集了各方面的词组, 希望对大家有帮助。 一、港台术语与内地术语之对照 由于港台的...
  • vc术语

    2007-07-08 23:29:00
    STL就是标准模板standard templet libATL就是活动模板 COM就是组件对象模型 COM+是COM和附有几个新建特性的MTS编程模型的合并。ATL可以使用MFC类库,也可以不使用MFC类库,为了效率和生成代码依靠的大小,...
  • 计算机专业术语对照

    千次阅读 2019-03-21 22:13:58
    #转载自... # 计算机专业术语对照 ## 0-9 ## A ## access,获取,存取 acoustic coupler,声音耦合器 Active Directory,活动目录 ADSL,Asymmetrical Dingital Subscriber Loop,非对称...
  • 计算机术语大全

    千次阅读 2017-08-29 18:55:41
    此篇文章仅为一些学习上的专有术语的翻译
  • Oracle补丁术语介绍

    2015-09-20 17:57:01
    在使用Oracle的技术支持服务的时候,...这种补丁推荐在测试上测试无误后再安装在生产上。Merged patch: 合并的补丁。当几个小补丁之间有冲突,不能同时安装的时候,需要提供这种Merged Patch。补丁冲突主要是...
  • 大数据常见术语

    2017-07-07 13:59:58
    摘要: 大数据常见术语表 大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考了相应的博客文章。当然,这...
  • 港台术语与内地术语之对照

    万次阅读 2006-06-27 15:25:00
    在使用计算机的过程中,你可能会碰到各种各样的专业术语,特别是那些英文缩写常让我们不知所云,下面收集了各方面的词组,希望对大家有帮助。&|©雷傲极酷超级论坛 -- 雷傲极酷超级论坛,最新软件,BT 下载,游戏...
  • 计算机专业术语

    千次阅读 2010-03-29 11:42:00
    一、港台术语与内地术语之对照港台术语内地术语埠 接口位元 位讯号 信号数码 数字类比 模拟高阶 高端低阶 低端时脉 时钟频宽 带宽光碟 光盘磁碟 磁盘硬碟 硬盘程式 程序绘图 图形数位 数字网路 网络硬体 硬件软体 ...
  • 通信术语

    万次阅读 2011-04-06 17:02:00
    通信类常用的英语词汇 (表记录的)插入修改添加删除 InsertModify, updateAddDelete (拨号后)拨号音不断 Non-stop Dial Tone (程序,进程)调度 Dispatch (程序安装的)序列号 ...
  • 计算机术语 英中术语对照

    千次阅读 2004-12-27 13:27:00
    主 题: 英中术语对照 作 者: metaprogram (MyLevel(874) 书生 )所属论坛: C++ 论坛本帖分数: 0回复次数: 3发表时间: 2004-4-15 9:51:58正文内容:以下是侯捷个人陆续收集整理的有关於我所涉猎的领域的术语对照(英...
  • IT术语

    千次阅读 2009-12-23 10:50:00
    流媒体:是一种实时传输数据的方法,它让用户在整个内容被传送完之前就可以开始观看。实现流媒体的关键技术是流式传输。流式传输分为顺序流式传输和实时流式传输。实时流式传输需要专用的流媒体服务器与传输协议。...
  • 大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出...聚合(Aggregation) – 搜索、合并、显示数据的过程。 算法(Algorithms) – 可以完成某种数据分析的数学公式。 分析法(Analyt
  • 文章目录GitHub文档中文术语详解直接访问最牛地址:创建仓库与文件管理 GitHub文档中文术语详解 GitHub 术语表 以下是我们在网站和文档中使用的一些 Git 和 GitHub 专用术语列表。 追溯(blame) Git 中的“追溯”...
  • C++术语对照

    千次阅读 2004-11-29 10:46:00
    以下是侯捷个人陆续收集整理的有关於我所涉猎的领域的术语对照(英中繁简)。欢迎所有朋友给我意见(任何意见)。谢谢。新书写作,或发表文章时,我会以此表为叁考。本表所列,并不表示我在写译书籍时一定会采用表内...
  • 常见的大数据术语

    千次阅读 2015-02-12 14:01:21
    本文由 伯乐在线 - 小胖妞妞 翻译,蓝枫紫叶 校稿。未经许可,禁止转载! ...欢迎加入翻译小组。 ...大数据的出现带来了许多新的术语,但这些术语往往比较...当然,这份术语表并没有100%包含所有的术语,如果你认
  • RocksDB的术语

    千次阅读 2018-02-12 16:30:02
    合并运算符是一个用户定义的回调类,它可以合并合并操作数。 Block-Based Table: 基于块的表:默认的SST文件格式。 Block: 块:SST文件的数据块。在SST文件中,块以压缩形式存储。 PlainTable: SST文件格式的替代...
  • 计算机专业术语大全

    万次阅读 多人点赞 2013-06-21 11:03:22
    计算机专业术语大全(中~英文版)   AGP(Accelerated Graphics Port) -图形加速接口 Access Time-存取时间 Address-地址 ANSI (American National Standards Institute) 美国国家标准协会 ASCII (American ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 22,563
精华内容 9,025
关键字:

如何合并术语库