精华内容
下载资源
问答
  • 基础数据
    万次阅读
    2021-01-04 21:06:16

    一、数据仓库分层

    在这里插入图片描述

    1. ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理
    2. DWD层:对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、维度退化脱敏等
    3. DWS层:以DWD为基础,按天进行轻度汇总。
    4. DWT层:以DWS为基础,按主题进行汇总
    5. ADS层:为各种报表提供数据

    二、数据仓库为什么要分层

    1. 把复杂问题简单化,将复杂的任务分解成多层来完成,每一层只处理简单任务,方便定位问题。
    2. 减少重复开发,规范数据分层,通过中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性。
    3. 隔离原始数据:不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开。

    三、数据集市与数据仓库概念

    1. 数据集市(Data Market),现在市面上的公司和书籍都对数据集市有不同的概念。
    2. 数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务。
    3. 数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段。
    更多相关内容
  • oracle数据仓库国宝级资料(全套)

    千次下载 热门讨论 2014-09-19 23:10:09
    1、Oracle+10g数据仓库实践--数据仓库基础.pdf 2、Oracle+10g数据仓库实践--总体方案.pdf 3、Oracle+10g数据仓库实践--方案的总体优势.pdf 4、Oracle+10g据仓库实践--数据仓库工具的选择及准备.pdf 5、Oracle+10g...
  • 数据仓库

    万次阅读 多人点赞 2019-04-15 11:57:54
    数据仓库(Data Warehouse)是一个...数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的...

    数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策。

    主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

    数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

    数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据
    进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,
    但修改和删除操作很少,通常只需要定期地加载、刷新。

    数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息。

    数据仓库反映历史变化的属性主要表现在:
        数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限,数据仓库中的数据时间期限往往为数年甚至几十年。
        数据仓库中的数据仅仅是一系列某一时刻(可能是传统操作型数据系统)生成的复杂的快照;
        数据仓库中一定会包含时间元素。

    数据库与数据仓库的差异
       从数据存储的内容看,数据库只存放当前值,而数据仓库则存放历史值;数据库数据的目标是面向业务操作人员的,为业务处理人员提供数据处理的支持,而数据仓库则是面向中高层管理
    人员的,为其提供决策支持等。

    数据仓库的结构
    从数据仓库的概念结构看,一般来说,数据仓库系统要包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库及各种管理工具和应用工具,如图 3-10 所示。数据仓库建立之后,首先要从数据源中抽取相关的数据到数据准备区,在数据准备区中经过净化处理后再加载到数据仓库数据库,最后根据用户的需求将数据导入数据集市和知识挖掘库中。当用户使用数据仓库时,可以利用包括 OLAP(On-Line Analysis Processing,联机分析处理)在内的多种数据仓库应用工具向数据集市/知识挖掘库或数据仓库进行决策查询分析或知识挖掘。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。

    数据仓库框架由数据仓库基本功能层、数据仓库管理层和数据仓库环境支持层组成。

     

    数据仓库基本功能层。

           数据仓库的基本功能层部分包含数据源、数据准备区、数据仓库结构、数据集市或知识挖掘库,以及存取和使用部分。

    数据仓库管理层。

         数据仓库管理层由数据仓库的数据管理和数据仓库的元数据管理组成。
        数据仓库的数据管理层包含数据抽取、新数据需求与查询管理,数据加载、存储、刷新和更新系统,安全性与用户授权管理系统及数据归档、恢复及净化系统等四部分。

    数据仓库的环境支持层。

          数据仓库的环境支持层由数据仓库数据传输层和数据仓库基础层组成。
     

    数据仓库架构图:

    展开全文
  • 人口基础数据信息数据标准规范方案人口数据项.doc
  • 发现数据质量问题 > 定义数据质量规则 > 质量控制 > 质量评估 > 质量优化。 数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。

    目录

    1、什么是数据治理

    2、数据治理的目的

    3、数据治理的方法

    4、数据质量8个衡量标准

    5、数据治理流程


    1、什么是数据治理

    数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。

    数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。我们常说,用数据说话,用数据支撑决策管理,但低质量的数据、甚至存在错误的数据,必然会"说假话"!!! 数据治理即提高数据的质量,发挥数据资产价值

    2、数据治理的目的

    • 降低风险
    • 建立数据使用内部规则
    • 实施合规要求
    • 改善内部和外部沟通
    • 增加数据价值
    • 方便数据管理
    • 降低成本
    • 通过风险管理和优化来帮助确保公司的持续生存

    3、数据治理的方法

    从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。 

    数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。

    数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。

    基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。

    元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。

    血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

    质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。

    商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,比较知名的产品有 Microsoft Power BI,QlikView,Tableau,帆软等。

    数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

    4、数据质量8个衡量标准

    • 数据的准确性

    数据采集值或者观测值和真实值之间的接近程度,也叫做误差值,误差越大,准确度越低。

    • 数据的精确性

    指对同一对象的观测数据在重复测量时所得到不同数据间的接近程度。

    • 数据的真实性

    • 数据的及时性

    数据能否在需要的时候得到保证,比如月初的财务对账,能不能在月初就完成

    • 数据的即时性

    指数据采集时间节点和数据传输的时间节点,一个数据在数据源头采集后立即存储,并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据即时性就稍差。

    • 数据的完整性

    是应采集和实际采集到数据之间的比例。

    • 数据的全面性

    完整性衡量的是应采集和实际采集的差异。而全面性指的是数据采集点的遗漏情况。

    • 数据的关联性

    指各个数据集之间的关联关系。比如员工工资数据和员工绩效考核数据是通过员工这个资源关联在一起来的。

    5、数据治理流程

    基本流程发现数据质量问题 > 定义数据质量规则 > 质量控制 > 质量评估 > 质量优化

    参考文献:数据治理国际通行标准ISO38505

    小编有话:数据治理的课题实在太大,小编准备找几个点入手细写,如:前期的规范设计,元数据管理等,详见数仓系列 https://blog.csdn.net/weixin_39032019/category_8871528.html

     

     

    展开全文
  • 据挖掘技术是基于已有的数据之上,以帮助企业或个人了解现有的数据或信息,并...这个基础数据就储存于数据仓库中,基于数据仓库进行数据挖掘,还能够辅助管理层对未来行业发展前景做出更科学、更合理地数据分析与预测。

    熟悉数据挖掘技术的小伙伴,对数据仓库这一概念应该都不会感到陌生。数据挖掘技术是基于已有的数据之上,以帮助企业或个人了解现有的数据或信息,并在此基础上对企业的未来发展状况做出预测。这个基础数据就储存于数据仓库中,基于数据仓库进行数据挖掘,还能够辅助管理层对未来行业发展前景做出更科学、更合理地数据分析与预测。

    数据仓库是单个数据存储,用于支持分析性报告、决策等为目的而建立的。其可以提供各种类型数据,支持企业进行各种级别决策的制定,还能为有业务智能需求的企业提供有关数据监看、业务流程改进等支持。由此可见数据仓库对整个数据挖掘过程的重要性,下面小编总结一下数据仓库的4大特征,以帮助大家更好地理解数据仓库的概念。

    在这里插入图片描述

    1、面向主题

    面向主题,即处于数据仓库中的数据是按照特定的主题组织而成的,这里的主题不是具体的而是一个抽象的概念,常指企业或个人在使用数据仓库着重关注的方面。它不像业务支撑系统按业务功能明确企业的业务范围并按业务对象的密切度进行分类,不同的行业数据仓库的主题划分也不尽相同。

    2、数据集成

    数据集成,指在数据仓库中的数据信息并不是在各业务系统中简单、随机抽取的,由于数据仓库间的独立性,因此需要消除源数据中的异值。即对原本分散于数据仓库中的数据进行抽取、清理的系统加工,以确保数据仓库中的数据保持一致性。

    3、稳定性

    业务系统中的数据总是处于不断变化的状态,即数据为最新的状态。相对于业务系统的不断变化,数据仓库具有稳定性,是指数据在进入数据仓库后,数据一般用于查询,很少会对数据进行修改,常见的操作也只是进行定期的加载和刷新。

    4、反映历史变化

    相对于业务系统数据常处于最新的状态,数据仓库的数据信息是可以反映历史变化的,即从过去的每一历史时刻至今各阶段的变化信息都有记录。由于数据仓库的数据具有能够反映历史变化的特点,因此可以利用其对行业的未来趋势和企业的发展方向做出更科学的预测,可以将其理解为环比、同比。

    现在你了解数据仓库的概念以及其4大特点了吗?经过上面的分析,相信大家也了解到了数据仓库于数据挖掘过程的重要性。在构建数据仓库方面,由于数据仓库的数据量是巨大的,因此一般要借助专业的BI工具来完成,如国内知名的BI品牌思迈特软件Smartbi就很不错。数据采集能力表现在,支持Excel数据批量导入功能。支持包括MySQL、MSSQL等丰富的数据连接。在跨库整合方面,Infobright、高速缓存库等数据源类型均可支持。

    展开全文
  • 文章目录 一、前言 二、数仓建模 三、数仓分层 四、数仓的基本特征 五、数据仓库用途 六、数仓分层的好处 七、如何分层 Refer 一、前言 现在说数仓,更多的会和数据平台或者基础架构搭上,已经融合到整个基础设施的...
  • 数据仓库——阿里五层模型架构

    万次阅读 多人点赞 2018-12-04 16:11:14
    目录 1. ODS 数据准备层 ...功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响 建模方式及原则:从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据...
  • 虽然很多企业都有自己的标签,或者说是DMP吧,但毕竟不是每个产品经理都有机会让平台承载的标签数量超过一百万,原因很简单,要么没需求,要么没数据,要么没必要。 我记得当初打造1000+标签的时候,也是觉得太...
  • 1.为什么要设计数据分层? * 数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。 * 数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得。 * 各种重复计算,严重...
  • 数据治理、共享交换、数据仓库、数据中心的关系

    万次阅读 多人点赞 2018-11-04 00:07:41
    数据中心不就是理解为搭建一套交换系统,将数据落地就OK了? 最近写投标文档,项目要建立大数据中心,就没怎么考虑还是按照10年前的想法,数据中心不就是理解为搭建一套交换系统,将数据落地就OK了,就没怎么思索...
  • 【数仓】数据仓库的指标(五)

    千次阅读 2020-05-02 18:03:13
    本文要来说说,数仓中的数据指标 数仓系列: 【数仓】数据仓库的思考(一):https://blog.csdn.net/lsr40/article/details/105576047 【数仓】数据仓库的建设(二):...
  • 原文地址 一、元数据的定义 ...元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。
  • 一、数据仓库 关于数据仓库概念的标准定义业内认可度比较高的,是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出: 中文定义:数据...
  • #资源达人分享计划#
  • 数据仓库基础

    千次阅读 2022-03-31 09:05:11
    数据仓库是什么 ...随着互联网的发展,数据源头越来越多且是分散的,除了业务,APP 埋点,web 网站、 log日志,IOT 设备等会产生各种各样的海量数据,这些数据在进入数据仓库之前(或之后),需要...
  • Hadoop构建数据仓库实践 第2章 ◄数据仓库设计基础► 本章首先介绍关系数据模型、多维数据模型和Data Vault模型这三种常见的数据仓库模型和与之相关的设计方法,然后讨论数据集市的设计问题,最后说明一个数据仓库...
  • 数据中台与数据仓库的区别?

    万次阅读 2019-07-08 08:37:39
    首先,从数据来源来说,数据中台的数据来源期望是全域数据包括业务数据库,日志数据,埋点数据,爬虫数据,外部数据等。 数据的来源可以是结构化数据或者非结构化的数据。而传统数仓的数据来源主要是业务数据库,...
  • 数据仓库分层DWD、DWB、DWS

    万次阅读 2018-08-29 17:11:25
    DW :data warehouse 翻译成数据仓库 DW数据分层,由下到上为 DWD,...DWB:data warehouse base 基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。 DWS:data warehouse service 服务...
  • ODS、数据集市、数据仓库区别

    千次阅读 2015-11-07 22:05:28
    1、 2、参考url http://www.zhihu.com/question/21502959
  • MySQL数据仓库基础

    万次阅读 2021-03-10 22:33:25
    通过一些常用的MySQL命令,了解并掌握《三国志》游戏数据库的简单管理。如何创建数据库的基础知识、数据库的管理内容、数据库表的管理以及一些基础的系统变量内容。
  • Hadoop构建数据仓库实践 第1章 ◄数据仓库简介► 对于每一种技术,先要理解相关的概念和它之所以出现的原因,这对于我们继续深入学习其技术细节大有裨益。本章将介绍数据仓库的定义,它和传统操作型数据库应用的区别...
  • TDW开源:腾讯的分布式数据仓库

    千次阅读 2014-05-23 10:03:11
    腾讯分布式数据仓库 ( Tencent distributed Data Warehouse,简称TDW) 是腾讯基于开源软件研发的大数据处理平台,它基于Hadoop、Hive、PostgreSQL之上进行研发,历经4年多的研发和运营。目前,TDW已经开源。 腾讯...
  • 本章说明示例的业务场景、数据仓库架构、实验环境、源和目标的建立过程、测试数据和日期维度的生成等内容。后面章节陆续介绍实现初始数据装载、定期数据装载、调度ETL工作流自动执行、维度表技术、事实表技术、...
  • 国土资源基础数据标准模板开发设计与应用
  • 除了日期维度外,其他三个维度都在源数据基础上增加了代理键、版本号、生效日期、过期日期四个属性,用来描述维度变化的历史。当维度属性发生变化时,依据不同的策略,或生成一条新的维度记录,或直接修改原记录。...
  • Hive:一个数据仓库基础架构,提供数据汇总和命令行的即席查询功能。 Mahout:一个可扩展的机器学习和数据挖掘。 Pig:一个用于并行计算的高级数据流语言和执行框架。 Spark:一个处理Hadoop数据的、高速的、通用...
  • 注:本文于2019年1月31日发表于微信公众号 谈数据(learning-bigdata) 在和一些客户、同事聊数据的时候,发现好多人对于数据相关的一些概念、作用并不是很清楚。这里我针对自己工作接触和学习积累的一些内容给大家...
  • 《Python工程应用—数据分析基础与实战》教学课件—05数据分析常用介绍.pdf《Python工程应用—数据分析基础与实战》教学课件—05数据分析常用介绍.pdf《Python工程应用—数据分析基础与实战》教学课件—05数据...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,892,697
精华内容 2,357,078
关键字:

基础数据