-
2021-11-14 09:09:55
数据标准
数据标准:保障数据的内外部使用和交换的一致性、准确性的规范性约束(如命名、类型、值域等),通常包括了基础指标和计算指标
计算指标:即计算口径,如下单转化率、获客成本、复购率的具体计算的方式如怎么定义一个人的性别、婚姻状况、健康状况,在不同的业务系统中定义的可能千差万别,数据标准就是将这些定义进行统一化、规范化。
数据标准用于指导系统的数据结构定义及值域的选择
在国家标准全文公开系统中,定义了各行各业方方面面的标准,可在实际数据建模时进行引用数据标准分为:
- 国家标准: 如国家标准全文公开系统中定义的数据标准,又为了强制性国家标准、推荐性国家标准
- 行业标准: 如交通运输行业标准–交通信息基础数据元
- 企业标准
如在国家标准GB/T 2261中规范了人的性别代码、婚姻状况代码、健康状况代码等
更多相关内容 -
比较两组数据的差异用什么图更直观_你真的懂如何展示数据吗?
2020-11-21 03:54:26↑关注 + 星标~有趣的不像个技术号每晚九点,我们准时相约偶尔应金主爸爸要求改时间大家好,我是朱小五如何来展现的你的数据?是你有时不得不去思考的一个问题。不同的展示方法,其效果往往差异巨大。这里我将结合...↑ 关注 + 星标 ~ 有趣的不像个技术号 每晚九点,我们准时相约偶尔应金主爸爸要求改时间
大家好,我是朱小五
如何来展现的你的数据?是你有时不得不去思考的一个问题。
不同的展示方法,其效果往往差异巨大。这里我将结合近期的一些阅读和实践,试图给出一些方法,希望能帮助到你。
1. 展示之前的思考
在正式开始展示数据之前,希望你去思考几个问题。这些问题将有利于你后面的一些选择。
Who
首先要确定,这些数据展示的受众群体是谁?
深入去了解这些受众,以及他们的认知程度如何?
是否是第一次接受类似的数据?
最关键的,他们如何看待数据,是否对你很重要?
上述分析将帮助你发现你与受众之间的距离,从而采取必要的展示技巧,来确保他们能听懂你传递的信息。
What
你希望受众群体了解的数据是哪些?
这些数据是否准确,经得起推敲嘛?
数据口径是什么?是否符合人们的通常的认知?
是否包含了反面的数据?人为地清洗数据或只拿出佐证自己观点的正面数据,往往是站不住脚的。
Goal
你展示数据的目的是什么?
你想表达的观点是什么?
现有数据是否足够支撑你的观点?
Where
是在什么场合展示这些数据?汇报、交流、商务等
具体的形式是怎样的?PPT、纸质报告、图书等
How
在你回答了上述问题之后,你才能真正准备好面对最后这个问题:如何用数据表达你的观点?
2. 数据展示手段:文本篇
文本,是用来展示数据最简单的方式,也是最容易令人忽略的方式。人们总是有种倾向,希望采用某种炫酷的方式来说明数据;但其实最简单直接的方式效果最为显著。当你只有一两项数据需要分享时,简单文本是绝佳的沟通方法。可考虑只用数字(尽可能突出)和一些辅助性文字来清晰地阐述观点。此时如果使用其他方式,例如在表格或图形里只放入一、两个数字,但这种方式通常只会让展示方式带走人的眼球,而忽略了真正需要表达的信息本身。所以,当你确实只需要表达一两项数据时,不妨考虑只用数据本身。
比较上面两种展示数据的方式,左侧通过常见的柱状图表达,右侧通过简单文本方式表达。哪种更具备表现力,一目了然。
信息失真
在用文本表达数据时,有时是需要将数据收敛归纳出一、两个结论性数据来展示,但此时需要考虑信息失真的问题。例如上面例子表述为“2019年GDP比2018年增加1880亿或增长了6.2%”,这种就会产生数据失真问题。丢失了数据原有部分信息,应避免这种情况。
3. 数据展示手段:表格篇
当需要展示更多的数据时,表格或图形一般来说是好的选择。但需要注意的是,表格形式具有其特殊性,其与我们口头表达系统交互方式类似,这意味着我们是会阅读表格。当面前有一张表格时,通常会用到食指:我会一行一列地读,并且比较每个格子里的值。
表格最适合的场景是,有大量数据需要展示或受众群体关注点不同。但在PPT中使用表格往往不是一个好主意。当受众阅读表格的时候,他们不再听你口头表达的观点。当你在幻灯片或者报告中使用表格的时候,问问自己:你想要表达什么观点?你有可能找到更好的办法可视化这些兴趣点。如果这样做丢失了太多信息,不妨考虑将完整的表格放在附录中,用一个链接来满足受众的需要。
突出原则
使用表格时,因为本身就包含了大量数据,需要受众去阅读。如何在短时间内,突出核心内容,方便受众理解,就是关键所在。这里的原则就是尽量让设计融入背景,让数据占据核心地位。不要让厚重的边框和阴影与数据争夺受众的注意力。相反,要使用窄边框或者空白来区分表格的元素。注意下例中,上下用法的差异。
还可以使用另一种方式,突出你的数据。就是通过运用颜色差异,将表格中的细节和视觉暗示的使用结合起来,那就是热力图。热力图是用表格的形式可视化数据的一种方法,在显示数据的地方(在数据之外)利用着色的单元格传递数据相对大小的信息。用颜色饱和度提供视觉上的暗示,帮助眼睛和大脑更快地捕捉潜在的兴趣点。
在上边的热力图中,色彩的饱和度越高,对应的数字就越大。这使得受众很容易找出最大的数据(GDP值最高的地区和年份)。
4. 数据展示手段:图形篇
与表格的交互方式不同,图形是与视觉系统交互。视觉系统处理信息的速度更快,这也就意味着设计良好的图形通常能够比设计良好的表格更快地传达信息。
1). 线性图
线图是最为常用的一种图形,经常用来表示连续数据间的数据关系。通常,连续性数据都以时间为单位:天、月、季度和年度。如果不具备连续特性的数据,不适合用这种方式。
★ 折线图
最为常见的线性图,就是折线图。
如果存在多组数据,可使用下面分列显示,这样比较清晰。如数据量不大,也可以在一张图内显示,但应该是坐标口径一致,并做好标注工作。
★ 斜率图
还有一种特殊的折线图,被称为斜率图。它适用表现两个时间段或者两组对比数据点,可以快速地展示两组数据之间各维度的相对提升、降低等差异。斜率图组合了很多信息,除了绝对数值(数据点本身)之外,连接数据点的线条能够在视觉上直观地告诉你是提升还是降低以及变化的程度(通过倾斜方向和斜率),而无需解释这些线条的意义和变化程度具体是多少。
2). 条形图
条形图易于阅读。用眼睛比较条形图的末端,很容易快速得出结论:哪一类最大、哪一类最小以及类别之间的增减区别。
★ 水平条形图
水平条形图,顾名思义通过水平条线对比多组数据。人们通过对比右侧末端的位置,很容易比较出各组的差异。这种方式是比较符合人们的阅读习惯,即从左往右,从上至下的方式。特别是对于组别较多的情况,这种方式非常适合。
上面在一张图中展示31个省市自治区的GDP数据,使用条形图展示就非常合适。上图还使用了两个常见的条形图技巧。一个数值排序,这样有利于受众数值对比,二是使用了色温显示进一步加强了对比。
★ 竖直条形图(直方图)
跟水平条形图类似的就是竖直条形图。例如下图
★ 多组条形图
条形图也支持一组以上的数据。但需要注意的是,当你添加多组数据时,专注其中一组并得出结论就变得更为困难,所以谨慎使用包含多组数据的条形图。同时也要注意,有多组数据时,空白会把条形图分隔成视觉组。这使得类别的相对顺序变得重要。考虑你希望受众比较什么,并以此构造分类的层级,使之越简单越好。如下图所示,判读起来已经不太容易。
★ 堆叠图
作为条形图的一种特例,还有一种堆叠图。其旨在比较各类别之间总体区别的同时还能看出每个类别中子成分的占比情况。但这会很快产生视觉上的压力,尤其是采用大多数作图应用中的默认配色方案后。除了底部的子成分,你很难比较其他子成分在跨类别时的情况,因为不再有统一的基线可供比较。
3). 饼图
饼图,是大家经常使用的,但其实也是难以阅读一种图。当饼图的各部分大小相近时,你是无法或者很难判断哪一块更大。当大小相差较多时,你最多也只能判断某一块比另一块更大,却无法确定大多少。为了克服这个问题,你需要像下图一样添加数据标签。但我仍然觉得饼图不值它占据的这块地方。
用水平条形图替代饼图,按从大到小或者反向组织。记住,在条形图中,我们的眼睛会比较条形图的末端。由于以统一的基线对齐,很容易比较相对大小。这样不仅可以很直观地了解哪块最大,还能了解它比其他类别大多少。从饼图转换成条形图可能会有所遗漏。饼图能够传达的一个独特的信息就是整体和部分的概念。但如果图形本身难以理解,
4). 散点图
散点图在展示两个因素的关系时很有用,因为可以同时将数据对应到x轴和y轴上,观察是否存在某种关系以及存在何种关系。散点图在科学领域使用更为频繁。
5). 面积图
人眼不擅于在二维空间进行定量的度量,这使得面积图比我们讨论过的其他图表类型更难阅读。因此通常避免使用面积图,只有一个当需要可视化相差极大的数值时。方形带有第二个维度(同时有长和宽,而条形图只有长或者宽),因而能比单一维度更紧凑地进行可视化。
5.展示原则:认知负荷(简化、简化、简化)
人脑的处理能力是有限的。在展示数据时,应尽量减少受众脑力消耗,即用更低耗的方式展示。消耗受众脑力却对他们理解信息毫无帮助。这是我们需要避免的。最重要的在于受众感知的认知负荷:他们认为需要付出多少精力才能提取出信息。他们并不会通过深思熟虑地做这个决定,但这会影响你的信息能否成功传达。总之,要考虑为受众最小化感知到的认知负荷。这里可采取一些常规的原则:
排序
通过数据排序,让受众更容易消化数据,更快速抓住信息要点。对比下图中的上下对比。
对齐文字
对齐文字,特别是坐标系的文字,方便读者更容易对比数据。常见的策略是左侧坐标系文字右对齐,右侧左对齐,避免居中对齐的情况。
适当留白
边界处避免出现文字和图表。避免拉伸图表撑满可用空间的欲望,根据内容多少决定图表的合适大小。
去除边框
对于图中边框,一般是不需要的。可以考虑使用留白对页面中的图表和其他元素进行合理的区分。
去除网格线
如果网格线对受众寻找数据对应的坐标值有帮助,或者感觉网格线会使数据得到更有效的处理,那可以保留。但也请尽量使用更细以及灰色等浅色的网格线。千万不要让网格线和数据形成视觉上的竞争。尽可能地完全去除网格线,这样会形成更强烈的对比,从而使数据更突出。
去除数据标记
每一个元素都会增加受众的认知负荷。使用数据标记,就是在为本来已经可以根据线条直观处理的数据增加认知负荷。这并不是说永远不要使用数据标记,而是要有目的地使用,尤其不要因为它们默认包含在你的绘图软件里而使用。
清理坐标轴标签
坐标轴的标签,常见的原点标注,一般都是不需要的。除非展示数据过多,且无法标注的情况,可以考虑使用。
选择是否需要坐标轴
作图时常常需要决定是保留坐标轴标签还是省略坐标轴而直接标记数据点。为了做这个决定,你需要考虑特异性的程度。如果你希望受众重点关注整体趋势,可以考虑保留坐标轴,但是将其置灰来削弱其重要性。如果某些具体的数值很重要,直接标记或许更好。在后一种情况下,通常最好省略坐标轴以避免包含重复信息。总是要考虑你希望受众如何使用图表,并以此来作图。
直接标记数据
在图例和数据之间切换是非常麻烦的。可将需要尽量识别出任何可能消耗受众精力的问题自行承担。建议在需要描述的数据旁进行标记。
慎用颜色
在少量使用时,颜色是吸引受众注意的最强大的工具之一。但请克制为了丰富多彩而使用颜色的冲动。有选择、有策略地使用颜色这一工具突出图表中的重要部分。建议自行选择颜色的使用,而不是让工具自动选择。可以考虑统一色调、对比色、品牌色的使用。
强调大小
大小很重要。相对大小代表了相对重要性。如果你需要展示几件重要性相同的事情,请使用相似的大小。相反,如果有一件事情尤其重要,那么用大小来体现这一点:将它变大!
文字体
包围,加粗,斜体,间隔,下划线。这些对文字的处理,也可以帮助突出信息,可酌情使用。
位置
大多数受众会从图表或者幻灯片的左上角开始,按“之”字形扫视屏幕或者页面。他们会最先看到页面的顶端,这使得这里成为了风水宝地。考虑将最重要的内容放在这里。
近期文章,点击图片 即刻 查看
昨日留言“HeoiJinChan”、“烷炸”+20积分;
最赞留言“安宁”+50积分
其余所有留言+10积分
点击 「 积分 」 ,了解积分规则~五
本文为“HeoiJinChan”推荐,获得20积分奖励~
如果大家想要投稿or荐文,点击原文链接即可!
朱小五
-
PPT中如何用半圆型饼图体现数据百分比
2020-12-19 00:43:04但有时我们的数据用半圆型饼图就可以体现了,那么这种情况下,我们该怎么办?今天,小编就教各位在PPT中,用半圆型饼图体现数据百分比的小技巧,大家一起来学习吧!首先,打开我们PPT文件;然后,切换到【插入】页面...本教程适用版本:WPS Office 2019 PC版点此使用
我们日常在制作PPT时,为了更好的突出数据,经常会添加各种图表,圆形饼图就是其中一种。但有时我们的数据用半圆型饼图就可以体现了,那么这种情况下,我们该怎么办?今天,小编就教各位在PPT中,用半圆型饼图体现数据百分比的小技巧,大家一起来学习吧!
首先,打开我们PPT文件;
然后,切换到【插入】页面,单击【图表】控件,我们插入一个饼图;
接着,切换到【图表工具】页面,单击【编辑数据】,在表格中输入数据;
返回PPT,选中图表区域,单击【选择数据】功能选项,其中,数据我们选中A列和C列;
选中图标中的黄色区域,设置为【无填充】、【无线条】;
接着,选中图表区域,切换到【系列】页面,【第一扇区起始角度】设置为“270”。
最后,我们选中【图表元素】快捷键,勾选【数据标签】,将不必要的数据删掉即可。
我们可以看看最后的完成效果。
本教程适用版本:WPS Office 2019 PC版点此使用
-
万字详解数据仓库、数据湖、数据中台和湖仓一体
2022-02-22 09:18:01数字化转型浪潮卷起各种新老概念满天飞,数据湖、数据仓库、数据中台轮番在朋友圈刷屏,有人说“数据中台算个啥,数据湖才是趋势”,有人说“再见了数据湖、数据仓库,数据中台已成气候”…… 企业还没推开数字化...本文目录:
一、前言
二、概念解析-
数据仓库
-
数据湖
-
数据中台
三、具体区别
-
数据仓库 VS 数据湖
-
数据仓库 VS 数据中台
-
总结
四、湖仓一体
-
目前数据存储方案
-
Data Lakehouse(湖仓一体)
一、前言
数字化转型浪潮卷起各种新老概念满天飞,数据湖、数据仓库、数据中台轮番在朋友圈刷屏,有人说“数据中台算个啥,数据湖才是趋势”,有人说“再见了数据湖、数据仓库,数据中台已成气候”……
企业还没推开数字化大门,先被各种概念绊了一脚。那么它们 3 者究竟有啥区别?别急,先跟大家分享两个有趣的比喻。
1、图书馆VS地摊
如果把数据仓库比喻成“图书馆”,那么数据湖就是“地摊”。去图书馆借书(数据),书籍质量有保障,但你得等,等什么?等管理员先查到这本书属于哪个类目、在哪个架子上,你才能精准拿到自己想要的书;而地摊上没有人会给你把关,什么书都有,你自己翻找、随用随取,流程上比图书馆便捷多了,但大家找书的过程是没有经验可复用的,偶尔多拿少拿咱们可能也不知道。
2、升级版银行
假定数据仓库、数据湖、数据中台都是银行,可以提供现金、黄金等多种服务。过去大家进银行前都得先问门卫,里面每个门牌上的数字对应哪个服务呢?是现金还是黄金呢?然后推开对应的门把东西取出来。而有了“数据中台”这个银行,大家一进来就能看到标着“现金”、“黄金”汉字的窗口,一目了然,你只需要走到窗口前,就有专人帮你办理。
以上两个例子不一定全面,但基本能解释三者的优劣势。数据仓库具备规范性,但取数用数流程长;数据湖取数用数更实时、存储量大,但数据质量难以保障;数据中台能精准快速地响应业务需求,离业务侧最近。
为了更清晰地区别三者,接下来咱们再来看看它们各自的定义以及应用区别。
二、概念解析
1. 数据仓库
数据仓库诞生于 1990 年,绝对算得上是“老前辈”了,它是一个相对具体的功能概念。目前对数据仓库的主流定义是位于多个数据库上的大容量存储库,它的作用在于存储大量的结构化数据,并能进行频繁和可重复的分析,帮助企业构建商业智能(BI)。
具体定义:
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,分析出有价值的资讯。
-
所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。
-
所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
-
所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库的作用:
数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。
-
是面向企业中、高级管理进行业务分析和绩效考核的数据整合、分析和展现的工具;
-
是主要用于历史性、综合性和深层次数据分析;
-
数据来源是ERP(例:SAP)系统或其他业务系统;
-
能够提供灵活、直观、简洁和易于操作的多维查询分析;
-
不是日常交易操作系统,不能直接产生交易数据;
实时数仓
实时数仓和离线数仓非常的像,诞生的背景主要是近几年企业对于数据服务的实时性需求日益增多。里面的数据模型也会像中台一样分好几层:ODS 、CDM、ADS。但整体对于实时性要求极高,因此一般存储会考虑采用Kafka这种log base的MQ,而计算引擎会采用Flink这种流计算引擎。
2. 数据湖
数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施,它就像一个大型仓库存储企业多样化原始数据以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理。拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。
数据湖从企业的多个数据源获取原始数据,数据可能是任意类型的信息,从结构化数据到完全非结构化数据,并通过与各类外部异构数据源的交互集成,支持各类企业级应用。结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。
进入互联网时代,有两个最重要的变化。
一个是数据规模前所未有,一个成功的互联网产品日活可以过亿,就像你熟知的头条、抖音、快手、网易云音乐,每天产生几千亿的用户行为。传统数据仓库难于扩展,根本无法承载如此规模的海量数据。
另一个是数据类型变得异构化,互联网时代的数据除了来自业务数据库的结构化数据,还有来自 App、Web 的前端埋点数据,或者业务服务器的后端埋点日志,这些数据一般都是半结构化,甚至无结构的。传统数据仓库对数据模型有严格的要求,在数据导入到数据仓库前,数据模型就必须事先定义好,数据必须按照模型设计存储。
所以,数据规模和数据类型的限制,导致传统数据仓库无法支撑互联网时代的商业智能。
05年的时候,Hadoop诞生了。Hadoop 相比传统数据仓库主要有两个优势:
-
完全分布式,易于扩展,可以使用价格低廉的机器堆出一个计算、存储能力很强的集群,满足海量数据的处理要求;
-
弱化数据格式,数据被集成到 Hadoop 之后,可以不保留任何数据格式,数据模型与数据存储分离,数据(包含了原始数据)在被使用的时候,可以按照不同的模型读取,满足异构数据灵活分析的需求。而数仓更加关注可以作为事实依据的数据。
随着Hadoop与对象存储的成熟,数据湖的概念在10年被提出:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统(这意味着数据湖的底层不应该与任何存储耦合)。
对应的来说,如果数据湖没有被治理好(缺乏元数据、定义数据源、制定数据访问策略和安全策略,并移动数据、编制数据目录),则会变成数据沼泽。
而从产品形态上来说,数仓往往是独立标准化的产品。而数据湖更像是一种架构指导——需要配合一系列的周边工具,来实现业务需要的数据湖。
3. 数据中台
大规模数据的应用,也逐渐暴露出现一些问题。
业务发展前期,为了快速实现业务的需求,烟囱式的开发导致企业不同业务线,甚至相同业务线的不同应用之间,数据都是割裂的。两个数据应用的相同指标,展示的结果不一致,导致运营对数据的信任度下降。如果你是运营,当你想看一下商品的销售额,发现两个报表上,都叫销售额的指标出现了两个值,你的感受如何? 你第一反应肯定是数据算错了,你不敢继续使用这个数据了。
数据割裂的另外一个问题,就是大量的重复计算、开发,导致的研发效率的浪费,计算、存储资源的浪费,大数据的应用成本越来越高。
-
如果你是运营,当你想要一个数据的时候,开发告诉你至少需要一周,你肯定想是不是太慢了,能不能再快一点儿?
-
如果你是数据开发,当面对大量的需求的时候,你肯定是在抱怨,需求太多,人太少,活干不完。
-
如果你是一个企业的老板,当你看到每个月的账单成指数级增长的时候,你肯定觉得这也太贵了,能不能再省一点,要不吃不消了。
这些问题的根源在于,数据无法共享。2016 年,阿里巴巴率先提出了“数据中台”的口号。数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用。之前,数据是要啥没啥,中间数据难于共享,无法积累。现在建设数据中台之后,要啥有啥,数据应用的研发速度不再受限于数据开发的速度,一夜之间,我们就可以根据场景,孵化出很多数据应用,这些应用让数据产生价值。
数据中台样板
在建设中台的过程中,一般强调这样几个重点:
-
效率、质量和成本是决定数据能否支撑好业务的关键,构建数据中台的目标就是要实现高效率、高质量、低成本。
-
数据只加工一次是建设数据中台的核心,本质上是要实现公共计算逻辑的下沉和复用。
-
如果你的企业拥有 3 个以上的数据应用场景,数据产品还在不断研发和更新,你必须要认真考虑建设数据中台。
那么接下来就看一下阿里巴巴对于数据中台的实践。
正如上述提到的数据只加工一次是建设数据中台的核心,本质上是要实现公共计算逻辑的下沉和复用。阿里数据中台提到了各种one思想,如:
-
OneData:公共数据只保存一份
-
OneService:通过一个服务接口进行暴露
三、具体区别
1. 数据仓库 VS 数据湖
相较而言,数据湖是较新的技术,拥有不断演变的架构。数据湖存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据。根据定义,数据湖不会接受数据治理,但专家们一致认为良好的数据管理对预防数据湖转变为数据沼泽不可或缺。数据湖在数据读取期间创建模式。与数据仓库相比,数据湖缺乏结构性,而且更灵活,并且提供了更高的敏捷性。值得一提的是,数据湖非常适合使用机器学习和深度学习来执行各种任务,比如数据挖掘和数据分析,以及提取非结构化数据等。
2. 数据仓库 VS 数据中台
数据仓库和传统的数据平台,其出发点为一个支撑性的技术系统,即一定要先考虑我具有什么数据,然后我才能干什么,因此特别强调数据质量和元数据管理;而数据中台的第一出发点不是数据而是业务,一开始不用看你系统里面有什么数据,而是去解决你的业务问题需要什么样的数据服务。
在具体的技术处理环节,二者也有明显不同,数据的预处理流程正在从传统的ETL结构向ELT结构转变。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。而大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。
3. 总结
根据以上数据仓库、数据湖和数据中台的概念论述和对比,我们进行如下总结:
-
数据中台、数据仓库和数据湖没有直接的关系;
-
数据中台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重;
-
数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据 API;
-
数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表;
-
数据中台距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务;
-
数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;
-
数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。
四、湖仓一体
有人说“湖仓一体成为下一站灯塔,数仓、数据湖架构即将退出群聊”。
2020年,大数据DataBricks公司首次提出了湖仓一体(Data Lakehouse)概念,希望将数据湖和数据仓库技术合而为一,此概念一出各路云厂商纷纷跟进。
Data Lakehouse(湖仓一体)是新出现的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。
1. 目前数据存储的方案
一直以来,我们都在使用两种数据存储方式来架构数据:
-
数据仓库:主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,并导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。
-
数据湖:存储任何类型的数据,包括像图片、文档这样的非结构化数据。数据湖通常更大,其存储成本也更为廉价。存储其中的数据不需要满足特定的schema,数据湖也不会尝试去将特定的schema施行其上。相反的是,数据的拥有者通常会在读取数据的时候解析schema(schema-on-read),当处理相应的数据时,将转换施加其上。
现在许多的公司往往同时会搭建数仓、数据湖这两种存储架构,一个大的数仓和多个小的数据湖。这样,数据在这两种存储中就会有一定的冗余。
2. Data Lakehouse(湖仓一体)
Data Lakehouse的出现试图去融合数仓和数据湖这两者之间的差异,通过将数仓构建在数据湖上,使得存储变得更为廉价和弹性,同时lakehouse能够有效地提升数据质量,减小数据冗余。在lakehouse的构建中,ETL起了非常重要的作用,它能够将未经规整的数据湖层数据转换成数仓层结构化的数据。
下面详细解释下:
湖仓一体(Data Lakehouse):
依据DataBricks公司对Lakehouse 的定义:一种结合了数据湖和数据仓库优势的新范式,解决了数据湖的局限性。Lakehouse 使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。
解释拓展:
湖仓一体,简单理解就是把面向企业的数据仓库技术与数据湖存储技术相结合,为企业提供一个统一的、可共享的数据底座。
避免传统的数据湖、数据仓库之间的数据移动,将原始数据、加工清洗数据、模型化数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型业务。
湖仓一体方案的出现,帮助企业构建起全新的、融合的数据平台。通过对机器学习和AI算法的支持,实现数据湖+数据仓库的闭环,提升业务的效率。数据湖和数据仓库的能力充分结合,形成互补,同时对接上层多样化的计算生态。
Lakehouse有如下关键特性:
-
事物支持:Lakehouse 在企业级应用中,许多数据管道通常会同时读取和写入数据。通常多方同时使用 SQL 读取或写入数据,Lakehouse 保证支持ACID事务的一致性。
-
模式实施和治理:Lakehouse 应该有一种支持模式实施和演变的方法,支持 DW 模式规范,例如 star /snowflake-schemas。该系统应该能够推理数据完整性,并且应该具有健壮的治理和审核机制。
-
BI支持:Lakehouse 可以直接在源数据上使用BI工具。这样可以减少陈旧度和等待时间,提高新近度,并且降低必须在数据湖和仓库中操作两个数据副本的成本。
-
存储与计算分离:事实上,这意味着存储和计算使用单独的群集,因此这些系统能够扩展到更多并发用户和更大数据量。一些现代数据仓库也具有这种属性。
-
兼容性:Lakehouse 使用的存储格式是开放式和标准化的,例如 Parquet,并且它提供了多种 API,包括机器学习和 Python/R 库,因此各种工具和引擎都可以直接有效地访问数据。
-
支持从非结构化数据到结构化数据的多种数据类型:Lakehouse 可用于存储,优化,分析和访问许多新数据应用程序所需的数据类型,包括图像,视频,音频,半结构化数据和文本。
-
支持各种工作场景:包括数据科学,机器学习和 SQL 分析。这些可能依赖于多种工具来支持的工作场景,它们都依赖于相同的数据存储库。
-
端到端流式任务:实时报告是许多企业的日常需要。对流处理的支持消除了对专门服务于实时数据应用程序的单独系统的需求。
上面这张图是DataBricks给出的架构演化参考图。
我们可以看到,传统的数仓目标非常明确,适用于将各业务数据源合并后,进行商务BI分析和报表。随着企业需要处理的数据类型越来越多,包括客户行为,IoT,图片,视频等, 数据规模也成指数增加。
数据湖技术被引入,并用于承担通用数据存储和处理平台的作用,数据湖由于其分布式存储和计算能力的特点,也可以更好的支持机器学习计算, 在数据湖时代,我们通常可以看到DataLake和Data Warehouse还是会同时存在的。
随着大数据时代的到来,是不是有可能让大数据技术可以取代传统数仓,形成一个统一的数据处理架构,湖仓一体的概念被提出,并由DataBricks和云厂商们在进行快速的推演和实践。
参考
-
-
漫谈数据仓库中的元数据管理
2022-06-01 00:54:08来源:网络编辑:数据社全文共5253个字,建议10分钟阅读简介:相信很多朋友都是第一次听说元数据管理系统这个名词,当然,从事非数据仓库工作的人,很少会接触到这个系统,即使是正在从事这方面工作的朋友,可能仍然... -
python多线程插入1万条数据
2019-11-30 13:21:40在业务中,经常碰到需要从外部批量读取数据然后导入到mysql等数据库的操作,通常情况下,我们使用一个insert语句就可以完成,但在数据量为上万甚至百万的时候,这样做是不是太耗时了呢? 下面我们先来看一个简单的... -
海量数据的传统存储面临的挑战,主要体现在哪几方面?
2019-05-05 19:32:27面对海量数据,传统存储面临诸多挑战,主要体现在以下方面。 成本高:传统存储硬件使用专有设备,通用性差,设备投资加上后期维护、升级扩容的成本非常高。 性能低:单节点I/O性能瓶颈无法逾越,容量和性能都不易... -
一篇文章搞懂 数据海洋 数据湖 数据池 数据水坑 数据孤岛 数据仓库 基本概念
2019-11-13 10:41:15该术语由Pentaho的CTO James Dixon发明并首次描述,他在博客中写道:“如果您将数据集市视为瓶装水的存储库,经过清洗,包装和结构化以便于使用,那么数据湖就很大了。水体处于更自然的状态。数据湖的内容从源头流入... -
数据分析之数据预处理、分析建模、可视化
2020-08-08 15:03:21数据预处理:数据清洗、数据集成、数据规约、数据变换; 数据分析模型:对比分析、漏斗分析、留存分析、A/B测试、用户行为路径分析、用户分群、用户画像分析等; 数据分析方法:描述统计、假设检验、信度分析、相关... -
数据仓库如何保证数据一致性
2021-09-15 16:41:27数据指标不一致的体现 同样的指标来自两张不同的表,结果不一样,可能源不一致,口径不一致 同样的指标,数据源自同一张表,但是是2个需求,指标口径不统一。 同一个指标,命名不一样,导致重复计算。 不同的两个... -
比较两组数据的差异用什么图更直观_用好这11种可视化图表,数据可视化技能秒提升...
2020-11-21 03:54:13今天,就让我们根据数据分析软件亿信ABI来解读一下各类统计图的使用场景以及优缺点。希望掌握这11种可视化图表,能够快速提升和巩固你的数据可视化展示,一起来看看吧!1、 柱状图适用场景:以柱子的高度用来比较两... -
UCI数据集详解及其数据处理(附148个数据集及处理代码)
2020-02-23 21:22:25为了方便使用,博文中附上了包括数据集整理及数据预处理在内的所有代码及处理好的数据集,同时对代码进行了解释,其要点如下:UCI数据集介绍、不同数据集的整理程序、148个整理好的数据集与对应程序。 -
【数据中台】数据中台架构搭建百科全书
2021-11-17 09:17:26这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产、资源属性。 数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等缺陷问题。 ... -
元数据管理与数据质量保障
2021-11-29 11:35:51元数据分为业务元数据、技术元数据和操作元数据及管理元数据,业务元数据知道技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。元数据与数据的对应关系如下表所示: 元数据... -
耗时n年,38页《数据仓库知识体系.pdf》(数据岗位必备)
2021-09-15 12:07:18拥有本篇文章,意味着你拥有一本完善的书籍,本篇文章整理了数据仓库领域,几乎所有的知识点。 -
数据治理管理平台——元数据与主数据管理
2022-02-24 09:17:43元数据体现数据的各类关系和属性,可从技术、业务、管理3个维度对元数据进行划分,从而帮助用户对整个系统内数据资产的质量和分布形成清晰直观的认知,并有助于持续地进行数据质量的提升以及问题的跟踪回溯。... -
数据库, 数据仓库, 数据集市,数据湖,数据中台
2019-02-22 16:21:47数据仓库和数据集市的区别 作者:修鹏李 出处:CSDN 大数据:数据仓库和数据库的区别 作者:南宫蓉 出处:简书 第一篇:数据仓库概述 第二篇:数据库关系建模 作者:穆晨 出处:CNBLOS 摘要 本文简要介绍... -
一个完善的企业级数据分析平台的价值,主要体现在哪几个方面?
2019-05-04 19:43:47一个完善的企业级数据分析平台的价值是不可估量的,由于其数据来源于各个业务系统,所以其价值有时很容易和业务系统的价值混淆在一起,无法很好的量化,为此总结了以下几点: 1、打通数据壁垒,实现信息透明。底层... -
关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析
2020-01-09 16:42:542010年左右,还是在上学的时候,学过一门课程叫《数据仓库与数据挖掘》,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在苦苦学习这些之时,... -
什么是数据中台,让企业的数据作为生产资料转变为数据生产力
2022-02-23 15:26:28数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式 和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。 -
【软件工程】数据流图 ( 数据流图简介 | 数据流图概念 | 数据流 | 加工 | 数据存储 | 外部实体 | 数据流图...
2020-10-25 14:22:39一、数据流图 ( DFD ) 简介 、 二、数据流图 ( DFD ) 概念符号 、 1、数据流 、 2、加工 ( 核心 ) 、 3、数据存储 4、外部实体 、 三、数据流图 ( DFD ) 分层 、 1、分层说明 、 2、顶层数据流图 、 3、中层数据流图... -
数据治理:数据血缘关系分析
2020-07-16 16:33:14数据治理:数据血缘关系分析 此文章由百度的多篇文章归纳总结而成,以供本人学习和记录方便,不做任何商务用途,如有侵权,请联系我删除,谢谢! 参考列表: 微信 - 头哥侃码公众号:数据治理的大方向是Database ... -
Python数据分析与可视化(1)——Python数据分析与可视化
2021-11-22 08:55:031、大数据分析框架结构 2、数据、信息与数据分析 数据:是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。 ... -
数据仓库详细介绍(九.数据质量)流程与工具
2022-01-21 01:07:55作者l 李朋波 编辑l 李朋波本文目录CONTENTS ☞ 数据质量管理流程 ☞数据质量管理工具设计思路上篇我们主要介绍了以下三部分内容。第一部分,介绍了五种常见的数... -
数据仓库之数据质量建设(深度好文)
2021-09-24 11:17:29数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的... -
数据结构与算法必知基础知识
2021-01-06 22:58:12数据结构与算法是程序员内功体现的重要标准之一,且数据结构也应用在各个方面,业界更有程序=数据结构+算法这个等式存在。各个中间件开发者,架构师他们都在努力的优化中间件、项目结构以及算法提高运行效率和降低... -
数据库的数据独立性体现在哪里?
2017-09-25 09:43:02答:数据独立性表示应用程序与数据库中存储的数据不存在依赖关系,包括逻辑数据独立性和物理数据独立性。 逻辑数据独立性是指局部逻辑数据结构(外视图即用户的逻辑文件)与全局逻辑数据结构(概念视图)之间的独立... -
大数据处理的基本流程:数据抽取与集成+数据分析+数据解释
2019-12-16 12:16:402007 年 1 月,图灵奖得主、关系型数据库鼻祖 JimGray 发表演讲,他凭着自己对于人类科学发展特征的深刻洞察,敏锐地指出科学的发展正在进入“数据密集型科学发现范式”——科学史上的“第四范式... -
数据管理知识体系指南(第二版)-第四章——数据架构-学习笔记
2021-12-10 11:57:53用创新性技术和数据使用驱动创新,成为现代企业架构的一种功能。 运用这2种方法有不同的方法论; 面向质量的方法与传统的数据架构工作保持一致,其中架构质量改进是逐步完成的。架构师需要掌握整体架构、将治理、标准... -
什么数据可以成为“数据资产”?数据资产化又该如何实现?
2019-09-06 15:55:43数据资产化已成为企业数据资产管理的最重要的环节,怎样识别数据资产、利用现有的数据资产创造价值,将是企业不得不面临的一个课题。 何为资产? 我们来看一下资产的概念: “资产是指由企业过去的交易或事项形成...