精华内容
下载资源
问答
  • 在数据库技术上什么是数据
    千次阅读
    2020-05-25 14:31:56

    1.数据(data):

    描述事物的符号记录称为数据。数据是数据库中存储的基本对象。

    个人理解:比如一个汉字或字母就是一个数据。

    2.数据库(DataBase, DB):

    数据库是大量数据的集合。

    个人理解:

    数据库——>Excel文件(一个文件就是一个数据库)

    数据库里的表——>Excel文件里的sheet

    3.数据库管理系统(DataBase Management System, DBMS):

    组织、存储、获取、维护数据的软件,也就是对数据进行增删改查等操作的软件。

    个人理解:

    数据库管理系统——>Excel软件或wps软件(能够新建数据库,修改表里的数据等)

    4.数据库系统(DataBase System, DBS):

    DB+DBMS+DBA+应用系统

    个人理解:前三条+数据库管理员等

     

    更多相关内容
  • 数据库系统是采用了数据库技术的计算机系统,数据库系统由数据库、数据库管理系统、应用系统和(C ) 。A.系统分析员 B.程序员C.数据库管理员 D.操作员2.数据库(DB),数据库系统(DBS)和数据库管理系统(DBMS)之间的关系...

    第1章 绪论

    1.数据库系统是采用了数据库技术的计算机系统,数据库系统由数据库、数据库管理系统、应用系统和(C ) 。

    A.系统分析员 B.程序员

    C.数据库管理员 D.操作员

    2.数据库(DB),数据库系统(DBS)和数据库管理系统(DBMS)之间的关系是(A )。

    A.DBS包括DB和DBMS B.DBMS包括DB和DBS

    C.DB包括DBS和DBMS D.DBS就是DB,也就是DBMS

    3.下面列出的数据库管理技术发展的三个阶段中,没有专门的软件对数据进行管理的是(D )。

    I.人工管理阶段 II.文件系统阶段 III.数据库阶段

    A.I 和 II B.只有 II C.II 和 III D.只有 I

    4.下列四项中,不属于数据库系统特点的是(C) 。

    A.数据共享性高 B.数据结构化

    C.数据冗余度高 D.数据独立性高

    5.数据库系统的数据独立性体现在(B ) 。

    A.不会因为数据的变化而影响到应用程序

    B.不会因为数据存储结构与数据逻辑结构的变化而影响应用程序

    C.不会因为存储策略的变化而影响存储结构

    D.不会因为某些存储结构的变化而影响其他的存储结构

    6.描述数据库全体数据的全局逻辑结构和特性的是(A ) 。

    A.模式 B.内模式 C.外模式

    7.要保证数据库的数据独立性,需要修改的是(C ) 。

    A.模式与外模式 B.模式与内模式

    C.三级模式之间的两层映像 D.三层模式

    8.要保证数据库的逻辑数据独立性,需要修改的是(A ) 。

    A.模式与外模式之间的映像 B.模式

    C.模式与内模式之间的映像 D.三级模式

    9.用户或应用程序看到的那部分局部逻辑结构和特征的描述是(C )

    A.模式 B.物理模式

    C.子模式 D.内模式

    10.下述(D )不是DBA数据库管理员的职责 。

    A.完整性约束说明 B.定义数据库模式

    C.数据库安全 D.数据库管理系统设计

    11.概念模型是现实世界的第一层抽象,这一类模型中最著名的模型是(D) 。

    A.层次模型 B.关系模型

    C.网状模型 D.实体-关系模型

    12.区分不同实体的依据是(B ) 。

    A.名称 B.属性 C.对象 D.概念

    13.关系数据模型是目前最重要的一种数据模型,它的三个要素分别是(B )。

    A.实体完整性、参照完整性、用户自定义完整性

    B.数据结构、关系操作、完整性约束

    C.数据增加、数据修改、数据查询

    D.外模式、模式、内模式

    14.在(A )中一个结点可以有多个双亲,结点之间可以有多种联系。

    A.网状模型 B.关系模型

    C.层次模型 D.以上都有

    15.(B )的存取路径对用户透明,从而具有更高的数据独立性、更好的安全保密性,也简化了程序员的工作和数据库开发建立的工作。

    A.网状模型 B.关系模型

    C.层次模型 D.以上都有

    展开阅读全文

    展开全文
  • 点击蓝色“有关SQL”关注我哟加个“星标”,天天与10000人一起快乐成长图 | 榖依米文章较长,可收藏后看。本文最后,准备了文中谈到的资料,可自取。知乎看到这么个问题:数据库数据...

    点击蓝色“有关SQL”关注我哟

    加个“星标”,天天与10000人一起快乐成长

    图 | 榖依米

    文章较长,可收藏后看。本文最后,准备了文中谈到的资料,可自取。

    在知乎上看到这么个问题:

    数据库与数据仓库的本质区别是什么?

    其实,我很反感本质这个词儿。因为本质这个词,抽象,模糊,不好定性。回答者好心倾囊相授,诡辩者却以一句“ 你没有明白我的意思,你说的本质和我说的,不一样!我的意思是……” balabala

    去特么的本质!这分明是给偷懒者的一个词儿。

    要说本质,就要有分门别类的标准,要把抽象细化下来,这非常考验人的形象与归纳思维。人与人之间,理解有偏差,谈话中对方跟不上,就容易造成误解。这种事情太多了。

    那么我把这个题目改一改,问,数据库与数据仓库的应用区别是什么?这样就好多了。至少,我们明确了在应用这个方向上,讨论“本质区别”。但事实上,这样问也不够好,还是模糊。这相当于问,“咖啡店与星巴克的区别是什么”。是不是很奇怪,有谁会问这么二的问题呢?

    所以我说,问题本身就不够明确。为什么,你往下看就知道了。

    既然谈到了应用,那主体肯定是人,只有人,才是应用的驱动体。站在人的角度来看,两者的区别就会清晰很多。

    首先,我们来看下,数据的应用有哪些。

    第一种应用,我在淘票票买了电影票:

    image

    这类应用,特点都是实时交互,我付了款,立马得到服务。比如购物,餐饮,交通等等。我们称之为 OLTP,也就是传统上所说的“关系型事务数据库”应用。

    第二种应用,我用支付宝的记账本,分析了下我本月的支出与收入:

    image

    这类应用,通常会涉及很长一段时间的数据读取,最终的数据呈现会以多种维度组织,实时性不高,但维度一定不止一维。比如支付宝年底的【我的2020】,它帮我们分析了全年的支出,哪个品类消耗最多资金,去过哪些城市,最钟爱哪类消费品等等。这类应用属于数据仓库的数据分析细分领域,也称之为 OLAP.

    理解了这两类应用后,我们进一步归类。无论是 OLTP 还是 OLAP,其实都是数据库应用,都要以数据库作为存储和处理基础。OLAP 数据仓库技术,不过是数据库应用中的一种。但数据库和数据仓库是否一定要以关系型事务数据库作为基础呢,不是的。我们接着往下分析。

    数据库

    刚才我们谈到应用,继而谈到应用的主体,人。那么谈人的时候,又有必要从人经历的历史,来看人的发展。以下是半个世纪来,人们在使用数据库上的历史节点。

    image

    刚开始,人们在应用数据需求上,使用各类不同的数据模型,有 Network Model, Hierarchical Model,还有 Relational Model.

    比较好理解的是,Hierarchical Model

    image

    有一对多的层级关系,最适合用来记录上下级关系的数据。比如部门组织架构,会计分录,工业制造常用的BOM(物料清单)等。

    接下来,特殊应用就是网络模型(Network Model):

    image

    20世纪50年代的计算机应用水平,还没有互联网概念。以现在发达的社交网络来理解网络模型,最合适不过。对,就是平常我们所说的社交网络。比如微博,微信,抖音等等。人与人之间的联系,就像一张网。两两认识的朋友,早晚也会成为朋友,用6度人脉来解释,就是你要认识王思聪,也只要找到关键的6个人带你。

    领衔数据库发展潮流,霸榜半个世纪的理论,是关系型数据库

    1970 年开始,让全世界震惊的关系型数据库论文《大型共享数据库数据的关系模型》在ACM发表了。由此打开了关系型数据库霸榜的序幕。从1973年开始,数据库厂商都开始以 IBM System R 为蓝本,开发自己的商用版本。比如 Oracle, IBM DB2, SQL Server , PostgreSQL 等等。他们起先做的事情和我们现在并无二样,就是记录银行流水,航空订票,甚至美国中央情报局,军方机构都采购Oracle.

    以 NoSQL,NewSQL 展开数据库新时代序幕

    随着手机,尤其是智能手机,智能平板,互联网应用的发展,关系型数据库在处理这些应用上逐渐吃力,因此 Redis, MongoDB, ElasticSearch 逐渐有了市场。他们的操作语法,看似和关系型数据库没有相似之处,但在组成架构上却还有些异曲同工,目的是把原来在关系型数据库中不好处理的部分,经过结构规范化,存储优化,索引优化等技术,使得这些非关系型结构化的数据处理,变得更加高效。

    并不是说,传统的应用中就没有今天互联网时代的应用,也有的。比如网站的打日志,全网搜索等。但那个时代并没有那么多流量,没有那么多人来访问应用,所以使用关系型数据库存储和处理这些数据还绰绰有余。但在流量爆发的今天,数据量早已不是当年可比。要存储和处理这些大数据,必须采用新新技术。

    比如MongoDB的数据分片,可以把用户操作日志放入操作日志集群中,把搜索日志放入搜索集群中;而用户的搜索,可以单独放入 ElasticSearch 中,使得搜索这种高吞吐量的操作不再占用宝贵的 OLTP 服务器资源。

    这些都是传统的关系型数据库在处理今天互联网应用上逐渐吃力的表现。

    功能上的缺陷,使得关系型数据库丢失了一部分市场。可真正让厂商焦虑的,是处理 OLTP 事务上的瓶颈。这才是关系型数据库真正感到无力的地方。比如淘宝每年的双十一,OceanBase  最高峰值达到每秒 6100 万。然而,传统的数据库,依据Oracle 的 TPC-C 打榜数据,只有 300万,完全支撑不住。当然这是 Oracle 2009年的数据,现今的 O 记云,能打到多少 QpmC,我们也不知道。

    所以我说,真正让传统的RDBMS厂商感到恐慌的,应该是大吞吐量事务处理的无力。

    至此,所有的应用,我们都可以称之为数据库应用。当然,也包括数据仓库。20世纪70年代以来,市场上占据主导地位的,还是关系型数据库。使用关系型数据库搭建数据仓库,完全顺其自然,也合情合理。Kimball 与 Inmon 最初的数据仓库理论,都以关系型数据库作为底层存储架构。

    但 Google 的大数据三驾马车出现后,情况开始变了。

    FileSystem, BigTable, MapReduce 的出现,使得大吞吐量的数据仓库不再遥不可及,原先的RDBMS解决方案是利用时间差,来解决复杂查询
    的效率问题,但在数据量和吞吐量达到单台服务器容量极限后,再多的数据量也就难以负载了。

    Google三驾马车的出现,使得多台,甚至千台数据库服务共同计算变成可能。一个人的力量是有限的,但一群人的力量就不可估量了。机器也是一样,关键在于调度。

    先讨论早期的数据仓库技术及产品

    刚才谈到,关系型数据库技术,早期用来服务银行,航空,军方情报等行业。这些应用主要的功能是处理数据的输入与输出。能够把数据做到准确,安全,一致,就已经达标了。这系列应用,我们称之为 OLTP(在线联机事务处理)

    但,随着输入的增多,输出就成为了瓶颈,最重要的就是数据分析变得吃力,响应需要等待很长时间,而且有时候结果甚至都出不来,还严重拖慢了数据输入的功能。

    因此,全世界都意识到,大量数据的分析,应该和数据的输入系统,也就是业务系统分开来治理。这,就是数据仓库思维的启蒙。

    进一步将数据模型优化成关系型数据模型与多维度数据模型概念的,是Kimball.  他的多维度数据模型虽然可以用关系型数据库实现,但数据结构的组织,已经完全不同于OLTP的使用规范,而是更接近于 OLAP,也就是在线联机分析处理。

    正因为又了多维度数据模型,OLAP才有了新的产品。新的非关系型OLAP产品,与OLTP的关系型数据库,完全就不是一个架构了。比如 SQL Server Cube, Hyperion Essbase,DB2 OLAP Server 等等.他们采用了一种叫做稀疏性矩阵的技术。

    以分布式数据库作为数据仓库技术的新起点

    半个世纪以来,数据库世界一直都是关系型数据库的天下。那么多的业务系统都建立在RDBMS上,那么顺理成章,数据仓库也以RDBMS为基建了。这样一来,无论是硬件成本,还是人力成本,都可以减少到最少。

    但摩尔定律一定是支配者信息产业的发展,每过18个个月翻番的,不仅仅是计算机硬件性能,对软件也提出更高的要求,数据库就更加严苛了。大家回忆下半年前,你们的数据库有多大,再想想现在你们的数据库有多大,就明白了。

    所以,大小型机,受制于单台资源,在日益增大的数据面前,毫无应招之力,只能让步于分布式数据库。以Hadoop的横空出世为起点,数据仓库终于不再以RDBMS马首是瞻,纷纷投奔分布式的非关系型数据库。

    跟RDBMS如出一辙,Hadoop一战成名之后,后起之秀就越来越多,也越来越猛。原本 Hive 这样的非实时数据仓库,已经取得了很大的市场,但随着实时数据技术的渴求与引入,Spark, Flink 这样的分布式计算也日益得到人们的青睐。

    真是“问世间,是否此山最高  或者另有高处比天高。”

    计算机的世界就是这样,你追我赶,你方唱罢,我方登场。总有软件比你更快,更好,也总有人,比你更懂SQL

    分布式数据库的技术派别

    分布式数据库,在提高系统吞吐量,降低服务器高负载,提高作业系统性能等方面,均做出了很好的优化。数据在爆量的情况下,采用分布式数据库系统又变得自然不过了。

    那么究竟有哪些分布式数据库呢?

    其实分布式数据库自数据库发展以来,就没有停过。Oracle, SQL Server 在创立之初,就有各自实现分布式数据库的方法。不过那个时候,我们倾向于把这些叫做产品功能,比如高可用,复制,镜像技术,或者读写分离。

    严格来说,这些分布式与我们今天所说的分布式,完全不一样。最重要的一点,商业数据库的分布式产品,都是高度自治的,那可真的是分布式,一台数据库服务器,与另外的分布式数据库服务器,不共享硬盘,也不共享内存与CPU.看上去完全无关,但逻辑上还是有联系,围绕着同一个应用,一台服务器供写入数据,另一台或者几台则供查询读取。数据同步使用 CDC, BAT 脚本等方式完成。

    但若继续采用上面的架构,流量再翻10倍,100倍,肯定就顶不住了,因为单机作战能力并不能无限升级,也就不能线性增长。这时,必须采用严格的分布式架构,使每一种数据,都落地在不同的数据库服务器上。比如江苏,上海,浙江的销售数据,分布在不同的机器上。如果业务继续扩展,增加了广州,北京,东北区域,那么再添加三台机器,分别用来承载这三个地区的销售数据,这样就完全可以抵住新增的业务吞吐量。

    这个时候, MPP 和 Hadoop 为代表的两类分布式计算架构出现在市场,也算是应运而生了。当然这是另外的话题。

    公众号后台回复“三驾马车”,可得 Google 大数据论文

    --完--

    往期精彩:

    本号精华合集(二)

    如何写好 5000 行的 SQL 代码

    如何提高阅读 SQL 源代码的快感

    我在面试数据库工程师候选人时,常问的一些题

    零基础 SQL 数据库小白,从入门到精通的学习路线与书单

    展开全文
  • 3 数据仓库的主要特征4 数据仓库与数据库区别5 数据仓库架构6 数据仓库元数据管理什么是元数据?元数据具体的工作内容元数据分为技术数据和业务元数据7 数据治理脏数据的种类数据治理原则知识拓展(数据集市)结束...

    大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!

    感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。


    前期回顾:
    ⼤数据是如何产⽣的?大数据的特点是什么?什么是埋点?如何进行数据埋点?【超详细介绍】

    对于这么多种类,这么大体量的数据是如何存储的呢?

    所以数据仓库就应景而生了。

    数据仓库(数据是如何存储的)

    1 什么是数据仓库?

    数据仓库(Data Warehouse),简称DW。数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。它能为企业提供⼀定的BI(商业智能:例如数据挖掘、数据分析和数据报表)能⼒。有了数据报表,还可以指导业务流程改进。
    在这里插入图片描述

    2 数据仓库解决什么问题?

    数据仓库是应景大数据而生的,解决的问题无非就是存储和快速提取, 另外还有跨部⻔应⽤的功能。
    在这里插入图片描述
    对于不同数据整合到了数据仓库之后,也就是大数据有了存储的位置;我们可以不同的部门进行不同的应用(例如数据挖掘、数据分析、报表展示和查询等等);而快速提取是我们对于数据仓库的基本需求,所以数据仓库在设计起初就要具备快速提取的功能。而技术实现呢,就是分布式。

    3 数据仓库的主要特征

    • ⾯向主题的
      传统数据库最大的特点就是面向应用进行组织数据,一个业务系统管理一部分企业数据,多个业务系统之间呢是相互分离的,而数据仓库则是面向主题的。
      我们可以通过从上图中的源数据那部分看到,它把多个业务的数据来整合,所以是面向主题的。
      在这里插入图片描述

    • 集成的
      集成是指数据仓库中数据必须是一致的,也就是我们要通过ETL进行软码编辑。数据仓库的数据是从原有的、分散多个数据仓库、数据文件、用户日志中抽取出来的,那数据来源上可能既有内部数据,又有外部数据。
      数据仓库中的数据是为分析而服务的,而分析呢又需要多种、广泛的不同数据源、数据,以便进行比较、鉴别。因此数据仓库中的数据必须从多个数据源中获取。那这些数据源就包括我们在上篇博客介绍过的内部数据、外部数据、文件系统以及网上的其他数据等。这些是通过数据集成而形成数据仓库的数据,所以它是集成的。

    • 稳定的(不易失的)
      数据仓库中的数据反映的是一段相当长时间内历史数据的内容,是不同时间点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的一个导出数据,一旦数据进入仓库以后,一般情况下会较长时间的保留。数据经加工和集成进入数据仓库后极少更新,所以是稳定的,它保留的时间长也是稳定的、不易失的。

    • 时变的(反映历史变化的)
      数据仓库中包含各种意思的历史数据。数据仓库中的数据与某个特定的日期,例如星期、月份是有关系的。虽然数据仓库不会修改数据,但并不是说数据仓库的数据啊是永远不变的,数据仓库的数据也需要更新以适应新的需求。数据仓库的数据随时间的变化主要表现在以下几个方面:
      1.数据仓库的数据时限一般来说远远长于操作类型的数据库时限;
      2.业务系统存储的是当前数据,而数据仓库中的数据是历史数据;
      3.数据仓库中的数据是按照时间顺序进行追加的,都在于时间属性,这就是反映了历史变化的数据。

    4 数据仓库与数据库区别

    在这里插入图片描述
    数据仓库与数据库的区别,实际上就是OLTP(联机事物处理过程),也称为面向交易的处理过程,和OLAP(联机分析处理)的区别。

    在看具体的差异之前,需要特别提醒的是,数据仓库的出现并不是要取代数据库,它们是各有各的用处的

    1. 先从面向来看,数据库面向的是事务,也就是OLTP(联机事务处理过程),而数据仓库呢面向的是分析,也就是OLAP(联机分析处理)。

    2. 再看一下用户,对于数据库来说,它的用户是DBA开发;对于数据仓库来说呢,它的用户就是经理、主管、分析人员,可以看出数据仓库是针对于分析的;

    3. 对于功能而言,数据库是针对于日常操作的,而数据仓库是对于长期信息需求,用来决策支持的。

    4. 再看一下数据,数据库当中存储的是当前的、最新的,而数据仓库呢存储的是历史的、跨时间维护的,所以数据库当中信息比较久远的数据可以入仓,也就是存储到数据仓库中来。

    5. 再看一下用户数,数据库是数百到数亿的,例如我们是一个电商数据库,那他的用户可能就达到了上亿,而对于数据仓库可能只达到了数百,因为是给企业内部人员来进行使用的。

    6. 再看一下设计规模,数据库呢是GB到TB的,那对于数据仓库来说呢,它存在是历史数据,所以肯定是大于TB的。

    我们以银行业务为例来具体的说明一下。数据库是事务系统的数据平台,那客户在银行做的每一笔交易都写入数据库记录下来,这里可以简单的理解为用数据库来记账。而数据仓库是分析系统的数据平台,它从事务系统获取数据,也就是从数据库中获取数据,并做汇总、加工,为决策者提供决策的依据。比如某银行某分行一个月发生多少交易,该分行当前存款余额是多少,如果存款多、消费交易多,那么该地区就有必要设立ATM。银行的交易量是巨大的,通常以百万甚至千万来计算。税务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据,这些数据就是海量的,汇总计算比较慢一些,但是只要能够提供有效的分析数据就达到了目的了。

    因此数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、决策需要而产生的,它绝不是所谓的大型数据库。

    5 数据仓库架构

    在这里插入图片描述
    数据仓库是大数据时代的必然产物,而且它还具有四个特征:面向主题的、集成的、稳定的、时变的。那么我们用它来解决的问题就是存储大数据量、快速提取、还有跨部门应用。那针对于跨部门应用和快速提取,我们就要设计好数据仓库的架构。那数据仓库的架构主要从四个方面来考虑:一个是性能,比如提取速度快;一个是成本,也就是数据仓库到底有多少个集群等等;还有效率和还有质量,这四点之间取得最佳的平衡。

    而主流的方法呢是分层架构。
    在这里插入图片描述

    • 第一层,ODS层,是数据准备区,数据来源是各个业务系统的数据,物理模型和业务系统模型是一致的。

    • 第二层,DWD层,数据来至于ODS层,数学模型与ODS层一致,那其实也是与业务系统模型一致。

    • 第三层,DW层,数据来自是第二层DWD层,是DW事实层,采用维度建模,星型架构。这一层可细分为dwb和dws。

    • 第四层,DM层,数据来自于下一层的DW层,采用了维度建模,也是星型架构,和DW层是一样的。

    • 第五层,ST层,数据来自于DW层,采用的也是维度建模和星型架构。

    上述内容是从数据来源及建模方式来说的这样五层的作用。

    接下来我们从服务领域、数据ETL来看一下这五层的作用。

    数据仓库系统的数据来源于不同的数据源,例如MySQL、ORACLE和文档等等,而且还提供不同的数据应用。数据是自下层流入到数据仓库,然后向上层开放数据应用。数据仓库只是中间的一个数据管理平台,所以我们在架构数据仓库系统的时候都采用分层架构。

    来看一下名企的数据仓库。

    华为采用的是分层架构。
    在这里插入图片描述
    星环专有采用的也是分层架构。
    在这里插入图片描述

    6 数据仓库元数据管理

    我们介绍在数据仓库进行架构的时候,从四个方面进行考量和平衡,如质量、性能、效率、还有成本。那分层架构上可以看出来,它是在效率和效能上进行考察的,质量方面就要靠元数据的管理和数据治理来实现了。

    什么是元数据?

    那我们先来介绍一下什么是元数据。

    元数据主要是记录数据仓库中模型的定义、各层级间的映射关系(例如我们架构的这五层,层与层之间的映射关系要靠元数据来保存),监控数据仓库的数据状态以及ETL任务的运行。一般会通过元数据质量库来统一地存储和管理原数据,其主要目的呢就是使数据仓库的设计、部署、操作和管理达成协同和一致,保证数据质量,这是元数据的定义。

    而我们关键要看的就是模型的定义、层级的映射关系、ETL的任务运行状态,这都是元数据来负责的。所以说元数据是数据仓库系统的一个重要的组成部分,贯穿数据仓库构建的整个过程,直接影响了数据仓库的构建、使用和维护。由于数据仓库的数据来源种类比较多,例如MySQL、日志、外部数据等等。在这些元数据进入数据仓库时,要经历ETL(抽取、转换、加载)这些操作步骤,所以元数据就是定义源数据到数据仓库的映射关系、转换规则等等。同理,在数据应用层,也就是用户在使用数据的时候,也是通过元数据来访问数据的,因为元数据记录了数据的位置。
    在这里插入图片描述

    元数据具体的工作内容

    那在数据分析的时候,我们也要知道数据清洗的规则是如何的,所以我们来看一下元数据具体的工作内容。

    在这里插入图片描述

    • 元数据针对于ETL,它存储了抽取方法、映射规则等等。

    • 对于清洗工具,它又存储了这样清洗的一些规则。

    • 对于相关人员使用,它存储了一些数据质量、数据是如何组织的。

    • 对于数据仓库的建模,它存储数据是如何定义的、数据有效值、数据仓库的模型等等。

    • 对于查询工具、前端工具、报表工具,也就是数据应用层,用户在使用的时候,元数据它包含了查询的定义、数据导出属性以及数据之间的映射关系。

    元数据分为技术元数据和业务元数据

    从我们介绍元数据保存的信息,我们可以看出,元数据分为技术性的元数据,还有业务性的元数据。

    技术元数据,它是被开发或者是管理数据仓库的这些IT人员使用的,它描述了与数据仓库的开发管理,以及维护相关的数据。例如包含数据源的信息都来自于哪一个部分的数据(比如MySQL,或者哪一个业务的)、数据转换的描述(也就是不同的数据源是如何入仓的)、数据仓库的模型、数据的清洗与更新的规则、数据映射和访问权限等等。

    对于业务元数据呢,它是对管理层和分析人员来服务的,但是从业务角度来描述数据,包括一些商务数据、数据仓库中有什么数据、数据的具体位置在什么地方和数据可用性等等。

    这就是我们元数据的作用,所以说元数据贯穿了数据仓库构建的整个过程,直接影响了数据仓库的构建(也就是IT人员使用的那部分元数据)、使用(也就是管理层和分析人员)和维护(也是IT人员)。

    所以数据仓库的元数据管理记录很重要,保证数据仓库中的数据质量,可以对元数据进行管理。那还有一点呢,就是对数据进行治理。数据治理有广义上的,还有狭义上的。在这里我们只介绍狭义的,也就是从数据分析的角度来介绍一下数据治理如何影响数据质量、影响分析的。

    7 数据治理

    都知道数据是企业的核心资产,而数据治理能成就企业的未来,特别是那种进行数据服务的公司,还有银行等。数据治理涉及到数据质量、数据管理、数据政策以及商业过程管理等。治理呢主要治理的是脏数据。那我们先来看一下脏数据的种类,以及对于不同种类的脏数据我们是如何处理的。

    脏数据的种类

    在这里插入图片描述

    1. 数据缺失。
      为了不影响分析的准确性,一般情况下我们是有两种方案来应对这种缺失数据的。
      第一种就是对于这种缺失数据,我们不把它纳入到分析范围里面,那这种情况适合于我们数据量比较多的情况下,也就是当我们数据量比较多,那对于缺失的数据我们删除可能不会影响我们最终的分析结果。但是如果我们样本量比较少,又把缺失的删除掉,那它可能会影响我们的分析。
      第二种方式,就是想办法想一些计算逻辑,或者是数据进行重新提取这样的方式来对数据进行填充。如填充中位数、众数或者均值。

    2. 数据重复。
      那在这种时候,就要进行分析去掉重复记录了。

    3. 数据错误。
      数据没有严格按照规范进行记录,这种情况下只能人工干预了,而干预的方式呢就有很多种了。那因为公司、业务、甚至数据,干预手段都是不一样的,可以做一张清洗规则表来进行错误匹配

    4. 数据不可用。
      也就是数据正确但不可用,也就是这个数据没有价值了。例如我们要收集所有的全国学生的一些基本信息,结果只收集了学生的姓名,名字是没有错,但是不知道是哪个学校的,不知道年龄、专业、班级等等,甚至所在的城市。那这样的数据是毫无价值的,即数据不可用。从源头也就是你数据收集就出错了,就只能从源头来改了。

    数据治理原则

    在这里插入图片描述

    虽然不同的脏数据种类,我们有不同的解决方案,但是真的有一些脏数据出现了,我们的代价是很大的。比如第四类数据不可用,真的是从头再来。所以说我们一定要对数据进行治理,治理的原则就是两方面。

    一方面是约束输入,比如必须添加的、数据的类型是什么,也就是规则要统一;另一方面就是规范的输出——统一语义,也就是我们口径、计算方式都一样,然后要有一个公司级别的语义字典。这样我们在用数据的时候就不会出现错误了,在收集数据的时候也不会出现数据不可用了。

    知识拓展(数据集市)

    数据仓库规模⼤、周期⻓,⼀些规模⽐较⼩的企业⽤户难以承担。因此,作为快速解决企业当前存在的实际问题的⼀种有效⽅法,独⽴型数据集市成为⼀种既成事实。

    数据集市(Data Mart) ,也叫数据市场,数据集市就是满⾜特定的部⻔或者⽤户的需求,按照多维的⽅式进⾏存储,包括定义维度、需要计算的指标、维度的层次等,⽣成⾯向决策分析需求的数据⽴⽅体。

    数据集市主要是针对⼀组特定的某个主题域、部⻔或者特殊⽤户需求的数据集合。这些数据需要针对⽤户的快速访问和报表展示进⾏优化,优化的⽅式包括对数据进⾏轻量级汇总,在数据结构的基础上创建索引。

    数据集市的⽬标分析过程包括对数据集市的需求进⾏拆分,按照不同的业务规则进⾏组织,将与业务主题相关的实体组织成主题域,并且对各类指标进⾏维度分析,从⽽形成数据集市⽬标说明书。内容包括详细的业务主题、业务主题域和各项指标及其分析维度。

    结束语

    一直在学习路上!

    推荐关注的专栏

    👨‍👩‍👦‍👦 机器学习:分享机器学习理论基础和常用模型讲解
    👨‍👩‍👦‍👦 数据分析:分享数据分析实战项目和常用技能整理


    关注我,了解更多相关知识!

    CSDN@报告,今天也有好好学习

    展开全文
  • 什么是分布式数据库

    万次阅读 多人点赞 2021-08-04 09:07:43
    分布式数据库,从名字可以拆解为:分布式+数据库。用一句话总结为:由多个独立实体组成,并且彼此通过网络进行互联的数据库。 理解新概念最好的方式就是通过已经掌握的知识来学习,下表对比了大家熟悉的分布式...
  • 大数据时代的医学公共数据库数据挖掘技术简介

    千次阅读 多人点赞 2020-10-15 17:00:00
    来源:临床模型预测本文约9500字,建议阅读10+分钟本文我们将介绍几种数据库和数据挖掘技术,帮助临床研究人员更好地理解和应用数据库技术数据挖掘技术可以从大量数据中寻找潜在有价值的信息...
  • 水平分库的技术关键点在于数据访问层的设计,数据访问层主要包含三部分: 分布式缓存 数据库中间件 数据异构中间件 而数据库中间件需要包含如下重要的功能: ID生成器:生成每张表的主键 数据源路由:将每次DB操作...
  • 数据模型是数据库中用来对现实世界进行抽象的工具,是数据库中用于提供信息表示和操作手段的形式架构。一般地讲,数据模型是严格定义的概念的集合。这些概念精确描述了系统的静态特性,动态特性和完整性约束条件。...
  • 数据库技术发展史

    千次阅读 2018-12-22 00:45:16
    数据库技术依据数据模型的进展可分为三个发展阶段:第一代的网状、层次数据库系统;第二代的关系数据库系统,以及新一代的数据库大家族。 一、第一代数据库系统 层次和网状模型都是格式化模型。它们从体系结构、...
  • 什么数据库

    万次阅读 多人点赞 2018-07-27 16:16:03
    我们可以从其名字来说,数据库的意思是数据的集合,如果这样来理解的话,电脑我们把照片放到同一个文件夹下,那么这个文件夹就是一个照片数据库;把文档资料放到一个文件夹,那么这个文件夹也是一个数据库。这样...
  • 标题:了解什么数据库数据表、字段、等概念 (1)数据库数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储计算机内的、有组织的、有共享的、统一管理的数据集合。数据库是以一定方式储存...
  •     数据库技术是应数据管理任务的需要而产生的。数据管理是指对数据进行分类、组织、编码、存储、检索和维护,它是数据处理的中心问题。而数据的处理是指对各种数据进行收集、存储、加工和传播的一系列活动的...
  • 试述数据数据库数据库管理系统、数据库系统的概念。
  • 数据库技术前沿总结

    万次阅读 多人点赞 2018-12-31 08:14:26
    该模型克服了传统数据模型的局限性,促进了数据库技术在一个新的技术基础继续发展。 (2)数据库技术与多学科技术的有机结合 计算机领域中其他新兴技术的发展对数据库技术产生了重大影响。传统的数...
  • 数据库恢复技术 数据转储 登记日志文件 登记日志文件的作用以及原则 恢复策略 事务故障的恢复 系统故障的恢复 介质故障的恢复 利用检查点技术的恢复策略 数据库镜像   事务(transaction)是一系列的数据库...
  • 数据库数据仓库联系与区别

    千次阅读 2021-08-25 18:46:56
    数据库在IT架构中是必须存在的,因为必须要有地方存数据。就拿微信、微博的账号和密码来说,后台数据库中肯定会有一个user表,字段起码包括用户名和密码,然后所有的用户数据一行一行存在user表上面,我们登陆的...
  • 数据库是存储一起的相关数据的集合,这些数据是结构化的,无有害的或不必要的冗余,并为多种应用服务;数据的存储独立于使用它的程序;对数据库插入新数据,修改和检索原有数据均能按一种公用的和可控制的方式进行...
  • 很多人都想了解区块链的数据到底什么时候是存储什么时候又储存相应节点的数据库中间呢? 今天我们就来解决这个有趣的问题!!! 首先我们必须了解清楚两个概念: 区块链数据; 链上数据; 首先:区块链...
  • 数据库 vs 数据仓库

    千次阅读 2022-01-06 09:49:17
    数据库 说到数据库,我们一般是指传统的关系型数据库,也就是“联机事务处理”(OLTP),主要用户在线交易处理。比如银行业务、电信业务之前很多都是Oracle或者DB2(可能现在很多开发者没再用过),到后来的互联网电商用...
  • 数据处理当中,数据库承担着重要的职责,需要保证大数据存储的稳定性和可用性,因此大数据开发当中,数据库开发也是非常重要的一环。那么数据库开发是干什么的,数据库开发难不难,今天我们就来具体聊一聊。 ...
  • 我的机器学习教程「美团」算法工程师带你入门机器学习 以及「三分钟系列」数据结构与算法已经开始更新了,欢迎大家订阅~这篇专栏整合了这几年的算法知识,简单易懂,也将是我实体书的BLOG版。 欢迎大家扫码关注微信...
  • 在数据库技术中,用数据模型的概念描述数据库的结构和语义,是对现实世界的数据抽象。数据模型是研究数据库技术的核心和基础。 文章目录1.概念数据模型(CDM)2.逻辑数据模型(LDM)3.物理数据模型(PDM) 1.概念...
  • 数据库数据

    万次阅读 2018-07-01 16:32:47
    数据库中常见的并发操作所带来了一致性问题包括:丢失的修改,不可重复读,读“脏”数据,幻读。1.丢失的修改:一个事物的更新覆盖了另一个事物的更新。例如:事物A和B读入同一数据并修改,B提交的结果破坏了A提交的...
  • 数据库恢复技术-数据库习题

    千次阅读 2021-11-29 22:28:53
    关于数据库备份的叙述中,错误的是( )。 A. 如果数据库很稳定就不需要经常备份,反之要经常备份,以防止数据库损坏 B. 数据库备份是一项很复杂的任务,应该由专业的管理人员来完成 C. 数据库备份也受数据库恢复...
  • 今年的一些事情实实在在地给了某些数据库重击,如果以前去某数据库还是喊喊,然后该用还用,今年从传统领域刮起的去某数据库的风,已经开始了,并且后面的乌云密布也看得见。 最近看一篇国外的开源产品提供厂商的一...
  • 别再说,不懂什么是图数据

    万次阅读 2020-06-11 11:13:14
    然而,随着关系数据库使用范围的不断扩大,也暴露出一些它始终无法解决问题,其中最主要的是数据建模中的一些缺陷和问题,以及数据量和多服务器之进行水平伸缩的限制。同时,互联网发展也产生了一些新的趋势...
  • 什么是MPP数据库

    万次阅读 2021-01-21 19:10:47
    大规模并行分析(MPP)数据库(Analytical Massively Parallel Processing (MPP) ...这些分析数据库将其数据集分布许多机器或节点,以处理大量数据(因此得名)。这些节点都包含自己的存储和计算功能,从而使每个节
  • 什么数据仓库?

    万次阅读 多人点赞 2019-04-24 19:44:14
    传统的数据库中,存放的数据都是一些定制性数据较多,表是二维的,一张表可以有很多字段,字段一字排开,对应的数据就一行一行写入表中,特点就是利用二维表表现多维关系。 但这种表现关系的上限和下限就定死了,...
  • 分布式数据复制技术

    万次阅读 2021-12-26 18:30:30
    分布式数据复制技术前言什么数据复制技术数据复制技术原理及应用同步复制技术原理及应用异步复制技术原理及应用半同步复制技术原理及应用三种数据复制技术对比知识扩展:半同步复制技术中,对于未回复数据更新...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,284,413
精华内容 513,765
关键字:

在数据库技术上什么是数据