精华内容
下载资源
问答
  • 事实表和维度表

    千次阅读 2014-04-15 18:29:48
    BI中事实表和维度表的定义  一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点...
     

    BI中事实表和维度表的定义


       一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。 

           首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据表中维护数据,其它维度数据存储在维度表中。每个维度表与事实数据表直接相关,且通常通过一个键联接到事实数据表中。星型架构是数据仓库比较流向的一种架构。

            事实表是数据仓库结构中的中央表,它包含联系事实与维度表的数字度量值和键。事实数据表包含描述业务(例如产品销售)内特定事件的数据。

            维度表是维度属性的集合。是分析问题的一个窗口。是人们观察数据的特定角度,是考虑问题时的一类属性,属性的集合构成一个维。

     

     

     

    展开全文
  • 事实表 维度表

    2018-06-11 20:01:00
    前面的示例就可以有两个维度:类型区域。另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性。 下面是两个常见的维度表结构: 产品维度表:Prod_id, Product_Name, Category, Color, ...

    维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度。前面的示例就可以有两个维度:类型和区域。另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性。

    下面是两个常见的维度表结构:

    产品维度表:Prod_id, Product_Name, Category, Color, Size, Price
    时间维度表:TimeKey, Season, Year, Month, Date

    而事实表是数据聚合后依据某个维度生成的结果表。它的结构示例如下:

    销售事实表:Prod_id(引用产品维度表), TimeKey(引用时间维度表), SalesAmount(销售总量,以货币计), Unit(销售量)

     

    上面的这些表就是存在于数据仓库中的。从这里可以看出它有几个特点:

    1. 维度表的冗余很大,主要是因为维度一般不大(相对于事实表来说的),而维度表的冗余可以使事实表节省很多空间。
    2. 事实表一般都很大,如果以普通方式查询的话,得到结果一般发的时间都不是我们可以接受的。所以它一般要进行一些特殊处理。如SQL Server 2005就会对事实表进行如预生成处理等。
    3. 维度表的主键一般都取整型值的标志列类型,这样也是为了节省事实表的存储空间。

     

    事实表和维度表的分界线

    事实表是用来存储主题的主干内容的。以日常的工作量为例,工作量可能具有如下属性:工作日期,人员,上班时长,加班时长,工作性质,是否外勤,工作内容,审核人。那么什么才是主干内容?很容易看出上班时长,加班时长是主干,也就是工作量主题的基本内容,那么工作日期,人员,工作性质,是否外勤,工作内容是否为主干信息呢?认真分析特征会发现,日期,人员,性质,是否外勤都是可以被分类的,例如日期有年-月-日的层次,人员也有上下级关系,外勤和正常上班也是两类上班考勤记录,而上班时长和加班时长则不具有此类意义。所以一般把能够分类的属性单独列出来,成为维度表,在事实表中维护事实与维度的引用关系。

    在上述例子中,事实表可以设计成如下
    WorkDate EmployeeID,WorkTypeID,Islegwork,Content,
    而时间,员工,工作类型,是否外勤则归为维度表。

    总的来看,和其他建立主外键关系的表也都一样。但是维度表的建立是需要有层次的(虽然不是必须,但是也是典型特征),而事实表的建立是针对已经发生的事实的,是历史数据的存档,也就是说是不应该修改的。以测试部测试软件的Bug为例。每个Bug都是一个事实。这个Bug的状态在数据字典里可能设计成新建,转派,修复,拒绝等等。那么在事实表中Bug表中有一个字段为Status。当测试员或者开发人员改变了这个状态的值,事实表中该如何更新呢?是直接更新Status还是什么其他的方式?显然,为了能够追踪这个Bug的历史信息,应该是重新插入一条新的记录。那么这和以往的数据库设计有什么区别呢?可以看出对于原始记录和新插入的记录,其他字段全部是相同的,也就是全部冗余的。如果以BugID作为主键,这时候会发现主键都是冗余的(当然,插入之前只能删除主键)。所以可以看出,事实表一般是没有主键的。数据的质量完全由业务系统来把握。

    总的说来,事实表的设计是以能够正确记录历史信息为准则,维度表的设计是以能够以合适的角度来聚合主题内容为准则。

     

    维是分析问题的角度,每一维代表一个统一的访问数据仓库中信息的路径。

    在实际问题中,有些维包含多个层次。

    事实是各个维度的交点,是对某个特定事件的度量,只有当特定维值的组合没有造成空穴时,一个事实才会存在。事实的数量属性称为度量。

    事实数据和维度数据的识别必须依据具体的主题问题而定。“事实表”,用来存储事实的度量(measure)及指向各个维的外键值。维表用来保存该维的元数据,即维的描述信息,包括维的层次及成员类别等

     
    所产生的数据,事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性纬度表的主键,而维度表包含事实记录的特性。事实数据表不应该包含描述性的信息,也不应该包含除数字度量字段及使事实与纬度表中对应项的相关索引字段之外的任何数据。
    包含在事实数据表中的“度量值”有两中:一种是可以累计的度量值,另一种是非累计的度量值。最有用的度量值是可累计的度量值,其累计起来的数字是非常有意义的。用户可以通过累计度量值获得汇总信息,例如。可以汇总具体时间段内一组商店的特定商品的销售情况。非累计的度量值也可以用于事实数据表,单汇总结果一般是没有意义的,例如,在一座大厦的不同位置测量温度时,如果将大厦中所有不同位置的温度累加是没有意义的,但是求平均值是有意义的。
    一般来说,一个事实数据表都要和一个或多个纬度表相关联,用户在利用事实数据表创建多维数据集时,可以使用一个或多个维度表。
     

    再举个实际的例子。银行对存款记账,A表中存放实际数据,包括账号、所属机构号、存款金额等,B表存放机构号和机构名称的对应关系。则A是事实表,B是维表。
     
     
     
    维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。例如,包含产品信息的维度表通常包含将产品分为食品、饮料、非消费品等若干类的层次结构,这些产品中的每一类进一步多次细分,直到各产品达到最低级别。
    在维度表中,每个表都包含独立于其他维度表的事实特性,例如,客户维度表包含有关客户的数据。维度表中的列字段可以将信息分为不同层次的结构级。
     
     
    简单的说: 
    1、事实表就是你要关注的内容; 
    2、维表就是你观察该事务的角度,是从哪个角度去观察这个内容的。 

    例如,某地区商品的销量,是从地区这个角度观察商品销量的。事实表就是销量表,维表就是地区表。
    https://blog.csdn.net/u013412535/article/details/45314555

    转载于:https://www.cnblogs.com/softidea/p/9168954.html

    展开全文
  • 事实表和维度表的定义

    万次阅读 2018-08-26 23:29:46
    也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。   首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据中维护数据,其它维度数据存储在维度表中。每个维度表事实...

     一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。 

           首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据表中维护数据,其它维度数据存储在维度表中。每个维度表与事实数据表直接相关,且通常通过一个键联接到事实数据表中。星型架构是数据仓库比较流向的一种架构。

            事实表是数据仓库结构中的中央表,它包含联系事实与维度表的数字度量值和键。事实数据表包含描述业务(例如产品销售)内特定事件的数据。

            维度表是维度属性的集合。是分析问题的一个窗口。是人们观察数据的特定角度,是考虑问题时的一类属性,属性的集合构成一个维。

    展开全文
  • 大数据事实表和维度表The source of these facts is from the list of Bernard Marr, one of the Big Data influences and the author of several bestselling books on Big Data. 这些事实的来源来自大数据影响者...

    大数据事实表和维度表

    The source of these facts is from the list of Bernard Marr, one of the Big Data influences and the author of several bestselling books on Big Data.

    这些事实的来源来自大数据影响者之一的伯纳德·马尔(Bernard Marr)名单,并且是几本关于大数据的畅销书的作者。

    Fact 1: Every 2 days we create as much information as we did from the beginning of time until 2003.

    事实1:从开始到2003年,每隔两天我们创建的信息量就和创建的信息一样多。

    Fact 2: Over 90% of all the data in the world was created in the past 2 years.

    事实2:世界上超过90%的数据是在过去两年中创建的。

    Fact 3: It is expected that 2020 the amount of digital information in existence will have grown from 3.2 zettabytes today to 40 zettabytes.

    事实3:预计到2020年,现有的数字信息量将从现在的3.2 ZB增加到40 ZB。

    Fact 4: The total amount of data being captured and stored by industry doubles every 1.2 years.

    事实4:行业捕获和存储的数据总量每1.2年翻一番。

    Fact 5: Every minute we send 204 million emails, generate 1,8 million facebook likes, send 278 thousand tweets and upload 200,000 photos to facebook.

    事实五:每分钟我们发送2.04亿封电子邮件,产生180万个Facebook点赞,发送27.8万条推文,并向Facebook上传20万张照片。

    Fact 6: Google alone processes on average over thousand search queries per second, making it over 3.5 billion in a single day.

    事实6:仅Google一个人平均每秒就处理超过一千次搜索查询,因此一天之内就超过了35亿次。

    Facts 7: Around 100 hours of video are uploaded to YouTube every minute and it would take you around 15 years to watch every video uploaded by users every day.

    事实7:每分钟大约有100个小时的视频上传到YouTube,而每天观看用户上传的每个视频大约需要15年。

    Fact 8: If you burned all of the data created in just one day onto DVDs, you could stack them on the top of each other and reach the moon twice.

    事实8:如果您将一天内创建的所有数据刻录到DVD上,则可以将它们堆叠在彼此的顶部,两次到达月球。

    Fact 9: AT and T is thought to hold the world's largest volume of data in one unique database- its phone records database is 312 terabytes in size, and contains almost 2 trillion rows.

    事实9: AT和T被认为在一个独特的数据库中拥有世界上最大的数据量-它的电话记录数据库大小为312 TB,包含近2万亿行。

    Fact 10: 570 new websites spring into existence every minute of everyday.

    事实10:每天每分钟都会出现570个新网站。

    Fact 11: 1.9 million IT jobs are created in the US by 2015 to carry out Big Data projects. Each of those supported by 3 new jobs created outside of IT meaning a total of 6 million new jobs thanks to big data.

    事实11:到2015年,美国将创造190万个IT职位,以执行大数据项目。 每个工作都由3个在IT之外创建的新工作支持,这意味着借助大数据总共有600万个新工作。

    Fact 12: Today's data centres occupy an area of land equal in size to almost 6,000 football fields.

    事实12:当今的数据中心所占土地面积相当于近6,000个足球场。

    Fact 13: Between them, companies monitoring Twitter to measure "sentiment" analyze 12 terabytes of tweets everyday.

    事实13:在他们之间,监视Twitter来衡量“情绪”的公司每天分析12 TB的推文。

    Fact 14: The amount of data transferred over mobile networks increased by 81% to 1.5 exabytes (1.5 billion gigabytes) per month between 2012 and 2014. Video accounts for 53% of that total.

    事实14:在2012年至2014年之间,通过移动网络传输的数据量增加了81%,达到每月1.5艾字节(15亿千兆字节)。视频占总量的53%。

    Fact 15: The NSA is thought to analyze 1.6% of all global internet traffic- around 30 petabytes (30 million gigabytes) everyday.

    事实15: NSA被认为可以分析全球所有互联网流量的1.6%,每天大约30 PB(3000万千兆字节)。

    Fact 16: The value of Hadoop market is expected to soar from $2 billion in 2013 to $50 billion by 2020, according to market research firm Allied Market Research.

    事实16:根据市场研究公司Allied Market Research的数据,Hadoop市场的价值预计将从2013年的20亿美元猛增到2020年的500亿美元。

    Fact 17: The number of Bits of information stored in the digital universe is thought to have exceeded the number of stars in the physical universe in 2007.

    事实17: 2007年,数字宇宙中存储的信息位数被认为已超过物理宇宙中的恒星数目。

    Fact 18: This year, there will be over 1.2 billion smart phones in the world (which are stuffed full of sensors and data collection features), and the growth is predicted to continue.

    事实18:今年,全球将有超过12亿部智能手机(塞满传感器和数据收集功能),并且预计这种增长将继续。

    Fact 19: The boom of the Internet of things will mean that the amount of devices connected to the Internet will rise from about 13 billion today to 50 billion by 2020.

    事实19:物联网的繁荣将意味着连接到互联网的设备数量将从现在的130亿增加到2020年的500亿。

    Fact 20: Big data has been used to predict crimes before they happen – a "predictive policing" trial in California was able to identify areas where crime will occur three times more accurately than existing methods of forecasting.

    事实20:大数据已被用来在犯罪发生之前对其进行预测–加利福尼亚州的一项“预测性警务”试验能够识别出犯罪发生区域,其准确性是现有预测方法的三倍。

    Conclusion:

    结论:

    This article was a bit different from all of my other articles, in this articles I have mentioned about 20 amazing facts that we all should know about Big Data,(from the author of bestselling book "Big Data in Practise" by Bernard Marr). I hope that you all enjoyed by learning all these facts about Big Data. If you have any further queries shoot your questions in the comment section below. See you in my next article till then stay healthy and keep learning.

    这篇文章与我的其他所有文章都有些不同,在本文中,我提到了我们都应该了解的有关大数据的20个令人惊奇的事实 (摘自Bernard Marr畅销书“实践中的大数据”的作者)。 我希望大家通过学习有关大数据的所有这些事实而感到高兴。 如果您还有其他疑问,请在下面的评论部分中提问。 在下一篇文章中再见,然后保持健康并继续学习。

    Other references:

    其他参考:

    翻译自: https://www.includehelp.com/big-data/20-amazing-facts-about-big-data.aspx

    大数据事实表和维度表

    展开全文
  • 写在前面 本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足...事实表包含了与各维度表相关联的外键,并通过join方式与维度表关联。事实表的度量通常是数值类型, 且记录数会
  • 这样的不仅包含了维度列(用户 商品)还包含了度量列(数量),是事实表事实表中一般不包含维度列的具体信息。 如,此销售事实表事实表并没有展示用户的具体信息。 2 维度表 维度表主要用来展示某一维度...
  • BI中事实表和维度表的定义

    千次阅读 2018-09-09 21:24:05
    也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。   首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据中维护数据,其它维度数据存储在维度表中。每个维度表事实...
  • 数仓之事实表和维度表(一)

    千次阅读 2018-12-27 16:47:53
    事实表: 事务事实表:(->明细事实表->聚合事实表) ...明细事实表(单事件事实表,流程事实表): 一般位于DWD层,该层事实表设计不进行聚合,汇总等动作,仅做数据规范化...
  • 数据仓库--事实表和维度表

    千次阅读 2018-07-31 23:06:08
    1.数据仓库与操作型数据库的区别 ...最明显的区别是:操作型数据库主要是用来支撑即时操作,对数据库的性能质量要求都比较高,为了防止“garbage in,garbage out”,通常设计操作型数据库的...
  • 并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据包含一个由多个部分组成的索引,该索引包含作为外键的相关性维度表的主键,而维度表包含事实记录的特性。 事实数据不应该包含描述性
  • 迟到的数据分为两种,一种是迟到的事实表数据,另一种是迟到的维度表数据。 对于迟到的事实记录,我们可以插入到相应的事实表中。...其次,在事实记录插入完成后,与该事实表相关的聚集事实表和合并事实表需...
  • 文章目录1 数仓分层1.1 基本分层模型1.2 数据集市数据仓库2 数仓理论2.1 范式理论2.2 关系建模和维度建模2.2.1 关系建模2.2.2 维度建模2.2.2.1 维度建模的三种模型2.3 维度表和事实表2.3.1 维度表2.3.2 事实表 ...
  • 数据仓库-事实表和维度表的设计

    万次阅读 2018-05-28 11:01:05
    最明显的区别是:操作型数据库主要是用来支撑即时操作,对数据库的性能质量要求都比较高,为了防止“garbage in,garbage out”,通常设计操作型数据库的都要遵循几个范式的约束,除非少数情况下为了性能进行妥协...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 61,221
精华内容 24,488
关键字:

事实表和维度表