精华内容
下载资源
问答
  • 详解大数据数据仓库分层架构

    万次阅读 2018-06-06 20:25:41
    大数据数据仓库是基于HIVE构建的数据仓库,分布文件系统为HDFS,资源管理为Yarn,计算引擎主要包括MapReduce/Tez/Spark等,分层架构如下: 1、数据来源层:日志或者关系型数据库,并通过Flume、Sqoop、Kettle等...

    大数据数据仓库是基于HIVE构建的数据仓库,分布文件系统为HDFS,资源管理为Yarn,计算引擎主要包括MapReduce/Tez/Spark等,分层架构如下:

    1、数据来源层:日志或者关系型数据库,并通过Flume、Sqoop、Kettle等etl工具导入到HDFS,并映射到HIVE的数据仓库表中。

    2、事实表是数据仓库结构中的中央表,它包含联系事实与维度表的数字度量值和键。事实数据表包含描述业务(例如产品销售)内特定事件的数据。

    3、维度表是维度属性的集合。是分析问题的一个窗口。是人们观察数据的特定角度,是考虑问题时的一类属性,属性的集合构成一个维。数据库结构中的星型结构,该结构在位于结构中心的单个事实数据表中维护数据,其它维度数据存储在维度表中。每个维度表与事实数据表直接相关,且通常通过一个键联接到事实数据表中。星型架构是数据仓库比较流向的一种架构。

    星型模式的基本思想就是保持立方体的多维功能,同时也增加了小规模数据存储的灵活性。

    说明:

    1)、事实表就是你要关注的内容;

    2)、维度表就是你观察该事务的角度,是从哪个角度去观察这个内容的。

    例如,某地区商品的销量,是从地区这个角度观察商品销量的。事实表就是销量表,维度表就是地区表

    4、主题表:主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域,因此这个数据仓库应用的主题就是“销售分析”。

    面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。例如,一个生产企业的数据仓库所组织的主题可能有产品订货分析和货物发运分析等。而按应用来组织则可能为财务子系统、销售子系统、供应子系统、人力资源子系统和生产调度子系统。

    5、汇总数据层:聚合原子粒度事实表及维度表,为满足固定分析需求,以提高查询性能为目的,形成的高粒度表,如周报、月报、季报、年报等。

    6、应用层:

    为应用层,这层数据是完全为了满足具体的分析需求而构建的数据,也是星形结构的数据。应用层为前端应用的展现提现数据,可以为关系型数据库组成。

    7、【补充】

    数据缓存层:

    用于存放接口方提供的原始数据的数据库层,此层的表结构与源数据保持基本一致,数据存放时间根据数据量大小和项目情况而定,如果数据量较大,可以只存近期数据,将历史数据进行备份。此层的目的在于数据的中转和备份。

    临时数据表层:

    存放临时测试数据表(Temp表),或者中间结果集的表。

    如何学习大数据?学习没有资料?

    想学习大数据开发技术,Hadoop,spark,云计算,数据分析等技术,在这里向大家推荐一个学习资料分享群:894951460,里面有大牛已经整理好的相关学习资料,希望对你们有所帮助。

    展开全文
  • 数据中台和大数据数据仓库的区别

    千次阅读 2020-03-09 11:48:26
    看了很多数据中台的介绍,感觉和传统数仓有一些区别,但是和大数据数据仓库的几乎无区别。 (1)从用途上看:都是为了,数据分析,数据挖掘,AI,数据可视化等等 (2)从存储上看:都是解决大数据量的问题 (3)从...
    看了很多数据中台的介绍,感觉和传统数仓有一些区别,但是和大数据数据仓库的几乎无区别。
    (1)从用途上看:都是为了,数据分析,数据挖掘,AI,数据可视化等等
    (2)从存储上看:都是解决大数据量的问题
    (3)从技术上看:要解决质量问题,规范问题,标准问题,元数据管理,主数据管理,等数据治理,再到数据分层,数据建模和前端可视化展现。
    (4)从工具上看:hadoop生态
    那么与大数据平台的区别是什么?
    大数据平台:一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等为一体的平台。
    大数据数据仓库,比大数据平台少了,数据存储和应用接口。严格的所数据仓库也可以提供应用接口,只是提供的均是数据接口,没用应用API。大数据平台却少了大数据仓库具有的数据分层和数据建模。数据分层和数据建模也是数据复杂性的产物。为了复杂问题简单化,可用性强引入了数据仓库。大数据平台更注重技术实现,而数据仓库更应该注重业务实现,实现数据价值。
    
    展开全文
  • 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(引用百度百科)...

    大数据的基本概念

    大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(引用百度百科)

    数据量单位与换算关系

    大数据的特征

    维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

    • 大体量(Volume):数据量达到数百TB到数百PB,甚至是EB的规模
    • 多样性(Variety):数据为各种格式与各种类型
    • 时效性(Velocity):数据需要在一定的时间限度下得到及时处理
    • 准确性(Veracity):处理结果要保证一定的准确性
    • 大价值(Value):分析挖掘的结果可以带来重大的经济效益与社会效益

    大数据研究的价值

    • 2007年图灵奖获得者吉姆·格雷指出:科学研究将从实验科学、理论科学、计算科学,发展到数据科学;“数据密集型科学发现”将成为科学研究的第四范式;科学研究将从实验科学、理论科学、计算科学发展到目前兴起的数据科学
    • 大数据对世界经济、自然科学、社会科学的发展将会产生重大和深远的影响;物联网的大数据应用是国家大数据战略的重要组成部分,结合物联网应用的大数据研究必将成为物联网研究的重要内容

    大数据研究的五个基本方面

    • 可视化分析—物联网大数据分析的可视化能够以非常直观的形式呈现给物联网用户,更容易帮助不同行业的物联网用户从中提取有价值的知识,帮助科学决策
    • 数据挖掘算法—物联网行业应用关系国计民生与生命安全,对数据挖掘结果的时效性、可靠性与可信性要求很高,必须由大数据专家与行业专家合作研究数据挖掘算法
    • 预测性分析能力—对于物联网应用预测性分析十分重要,需要组织行业专家、物联网专家与大数据专家相结合的研究队伍,研究适应不同行业物联网大数据的预测模型与算法
    • 语义引擎—物联网需要一套新的理论与方法来实现对地理位置分布的各种数据资源进行规范和灵活地组织,方便用户通过关键词、标签关键词或其他输入语义的搜索,提高主动获取知识的能力
    • 数据质量与数据管理—不同传感器感知的原始数据的汇聚,多维数据融合、多用户协同感知与数据质量管理,使得处理之后的结果更能够高精度地反映真实面貌,是物联网大数据研究的重点

     

    展开全文
  • 大数据数据信息化

    千次阅读 2019-09-15 21:30:40
    这个定义是给予“大数据”研究组织Gartner。 “大数据”是一种信息资产,需要新的处理模型才能拥有更大的决策,洞察力和流程优化能力,以适应大规模,高增长率和多样化。 麦肯锡全球研究院给出的定义是一个足以捕获...

      这个定义是给予“大数据”研究组织Gartner。 “大数据”是一种信息资产,需要新的处理模型才能拥有更大的决策,洞察力和流程优化能力,以适应大规模,高增长率和多样化。
      麦肯锡全球研究院给出的定义是一个足以捕获,存储,管理和分析传统数据库软件工具功能的数据集合。它具有较大的数据规模,快速的数据流和多样性四种数据类型和价值密度特征较低。
      大数据技术的战略意义不是掌握大量数据信息,而是将这些有意义的数据专业化。换句话说,如果大数据被比作一个行业,那么这个行业的盈利能力的关键是通过“处理”来提高数据的“处理能力”和数据的“增值”。
      从技术角度来看,大数据与云计算之间的关系与硬币的正面和背面密不可分。大数据不得由单台计算机处理,必须使用分布式架构。它为海量数据提供分布式数据挖掘。但它必须依靠云计算来实现分布式处理,分布式数据库和云存储以及虚拟化技术。
      随着云时代的到来,大数据引起了越来越多的关注。分析师团队认为,大数据通常用于描述公司创建的大量非结构化和半结构化数据,这些数据在下载到关系数据库进行分析时会花费太多时间和金钱。大数据分析通常与云计算相关联,因为实时大型数据集分析需要像MapReduce这样的框架将工作分配给数十,数百甚至数千台计算机。
      大数据需要特殊技术来有效处理随时间容忍的大量数据。大数据技术,包括大规模并行处理(MPP)数据库,数据挖掘,分布式文件系统,分布式数据库,云计算平台,Internet和可扩展存储系统。
      最小的基本单位是位,它按顺序给出所有单位:位,字节,KB,MB,GB,TB,PB,EB,ZB,YB,BB,NB,DB。泛站群

    转载于:https://my.oschina.net/u/4126590/blog/3053788

    展开全文
  • 大数据数据集下载地址

    千次阅读 2015-03-07 17:30:22
    大数据开发者最为难的就是没有有价值的数据来进行研究和实验,在国际上,一些欧美国家走在了前列,比如:  英国: 在其政府公开数据网站上( data.gov.uk)已经收录了10470个数据集。  澳大利亚: data.gov.au    ...
  • 大数据数据仓库-简介

    千次阅读 2017-09-23 21:50:56
    人类正从IT时代走向DT时代,数据变得越来越多,其重要性不言而喻,管理大量数据数据仓库也显得更重要。接下的日子里,本人会根据自己所学的知识和实战经验,编写多年心得与大家一起学习探头。
  • 理论篇~第一章 大数据数据仓库架构

    千次阅读 2017-09-23 22:30:35
     大数据系统体系分为数据采集层、数据计算层、数据服务层和数据应用层。简单介绍一下这四层的具体作用和使用到的技术(讲述的内容包含但不限于阿里巴巴的知识):  1 数据采集层  数据采集的对象主要是传统数据库...
  • 数据挖掘和大数据可以做什么? 简而言之,它们赋予我们预测能力。 我们的生活已经数字化了 我们每天所做的许多事情都可以记录下来。 每张信用卡交易都是数字化和可追溯的。 我们的公众形象一直受到许多中央电视台...
  • 大数据数据分析的大规模并行处理模型 Big Data Massive Parallel Processing(MPP) Model
  • http://www.jq22.com/jquery-info22759
  • 数据是基础,数据可能来自各种设备系统,怎么能快速准确的收集到同一个平台上?
  • 了解传统数据大数据

    千次阅读 2020-10-09 21:20:00
    了解传统数据大数据 传统数据大数据相比 数据量 传统数据gb-tb 大数据tb-pb以上 增长速度 传统数据数据量稳定 增长缓慢 大数据 持续实时生产数据 多样化 传统数据主要为结构化数据 大数据 半结构化,非结构化,...
  • 我在之前的数据仓库基础入门中写过,数据仓库技术在大数据背景下发生了很多改变,我粗糙的把数据仓库分成传统数据仓库和大数据数据仓库,其区别主要数数仓数据存储的地方不同,传统数仓数据存储在mysql等关系型...
  • 大数据数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要...
  • 大数据数据质量

    千次阅读 2019-06-01 13:54:12
    大数据数据质量一、数据质量评估1. 完整性2. 准确性3. 及时性4. 一致性二、如何提升数据质量1. 事前定义数据的监控规则2. 事中监控和控制数据生产过程3. 事后分析和问题跟踪 一、数据质量评估 1. 完整性 2. 准确性...
  • 大数据数据分析、数据挖掘的差别

    万次阅读 多人点赞 2017-10-09 16:00:36
    大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和差别。大讲台老师通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、...
  • 大数据数据仓库分层

    千次阅读 2019-06-03 10:32:18
    大数据数据仓库分层1. 什么是数据分层?2. 数据分层的好处一种通用的数据分层设计3. 举例4. 各层会用到的计算引擎和存储系统5. 大数据相关基础概念 1. 什么是数据分层? 数据分层是一套行之有效的数据组织和管理...
  • 1、大数据时代的数据特点 (4V) 1.1 规模性(Volume):即大数据具有相当的规模,其数据量非常巨大。数据的数量级别可划分为B 、KB 、MB 、GB 、TB 、PB 、EB 、ZB 等,而数据的数量级别为PB 级别的才能称得上是...
  • 大数据数据质量

    千次阅读 2013-02-06 10:59:41
     也有一些人开始谈论大数据数据质量,认为在大数据时代,对数据质量缺乏管理,就无法挖掘大数据的价值。但到目前为止,我还没有看到有人提到大数据数据质量有什么特点,其处理方式与传统数据有什么不同。我试着...
  • 大数据数据采集

    万次阅读 2018-07-30 20:24:30
    大数据数据采集 大数据体系一般分为:数据采集、数据计算、数据服务、以及数据应用 几大层次。 在数据采集层,主要分为 日志采集 和 数据数据同步。 日志采集 根据产品的类型 又有可以分为: - 浏览器...
  • 大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析、数据可视化等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和区别。今天,我们就来通过一些大数据在高校应用的例子,来为大家说明白—...
  • 大数据平台数据集市

    千次阅读 2019-11-21 14:09:54
    数据集市的作用: 是提供面向业务条线的基础数据,通过集成开发环境、调度系统、京东...大数据应用、数据挖掘类需求;特殊类型的ETL计算,如实时库存查询 就是为了能够更好的为各条线提供数据应用服务。 为了让...
  • 当今,企业”上云”节奏正在加速,特别是在以...另一方面,利用基于云计算之上的大数据、人工智能等新技术,企业又可以以较小的成本、更高效地挖掘出提升企业业务的数据与方法,实现云、数、智的自然融合和协力发展。
  • 参照TOGAF架构框架来看,大数据数据架构仍适用于“4+1”视图理论(逻辑、过程、开发和物理),同样是情景驱动的(Scenario-Driven),其要素为:  1、存储 (含采集、ETL、建模、治理等汇聚过程,形成“原始”...
  • 大数据与传统数据

    万次阅读 多人点赞 2017-01-24 16:43:49
    在这个人人都说大数据的时代,许多人对大数据的印象只是停留在仰望的阶段,其实大数据没人们说得那么神奇、玄乎或者是无所不能,今天我们就以传统数据作为比对,看看大数据究竟有什么特点让其处于时代的浪潮之巅。...
  • 大数据资料数据

    千次阅读 2017-01-13 15:18:49
    国内数据:链接:http://pan.baidu.com/s/1i5nyjBn 密码:26bm 好玩的数据集:链接:http://pan.baidu.com/s/1bSDIEi 密码:25zr 微软数据:链接:http://pan.baidu.com/s/1bpmo6uV 密码:286q 微博数据集:链接:...
  • 大数据环境数据追溯

    千次阅读 2019-11-11 12:17:05
    业务数据在生产库产生后,依据集成需求向其它系统传递(如CRM、DW、Hadoop等),数据从产生到最终的使用中间需要跨越多个系统,经历多次加工处理。随着集成需求的变化,数据加工处理环节越来越多,了解某一数据如何...
  • 大数据_数据来源类型

    千次阅读 2018-08-12 12:04:08
    数据分析首先要将杂乱排列的大数据进行处理,转换成简洁,高效,能让数据使用者一眼看懂的数据。所以就要将数据进行“抽取—转换—加载”(the Extract-Transform-Load,ETL),这就是所谓的数据处理三部曲。该环节...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 611,314
精华内容 244,525
关键字:

大数据数据