精华内容
下载资源
问答
  • 2010年左右,还是在上学的时候,学过一门课程叫《数据仓库与数据挖掘》,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在苦苦学习这些之时,...

    前言

    2010年左右,还是在上学的时候,学过一门课程叫《数据仓库与数据挖掘》,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在苦苦学习这些之时,大数据时代悄然到来,并迅速改变着各行各业。如今,十年风云际会,大数据早已成了行业绕不开的话题,这其中我们或多或少会接触到很多新兴的概念,例如数据湖、数据中台等,通过一些碎片化的学习,也是大概知道这些概念的意思,但要系统的说出这些概念之间的区别,深刻的了解其内涵,对我而言,恐怕还是困难的。所以,最近我系统的学习并总结了这些概念的含义和区别,写成本篇文章,分享给和我一样对此困惑并感兴趣的同学,希望理清这些概念的内涵和异同能对日后的工作有所帮助。

    本篇文章将大体按照传统数据到大数据时代发展的时间轴介绍其中所涉及的数据概念,并以数据仓库为核心通过两两对比的方式总结其中的异同。本文属于综述性的概念科普文章,对其中所涉及到的方法论不做过多的阐述,感兴趣的同学可以查阅相关资料学习,后续,若时间允许,将陆续推出相关方法论系列介绍,同时欢迎有兴趣的同事和我一起完成。

     

    1 概念介绍

    本文主要介绍如下几个数据概念:

    数据库

    数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合。

    数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。——百度百科

    数据集市

    是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题,按照多维的方式进行存储,包括定义维度需要计算的指标维度的层次等,生成面向决策分析需求的数据立方体。——wikipedia

    数据仓库

    是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合用于支持管理决策。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所积累的大量资料,透过数据仓库理论所特有的资料存储架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助构建商业智能(BI)。——《Building the data warehouse》W.H.Inmon

    数据湖

    数据湖是以其自然格式存储的数据的系统或存储库,同行是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构数据(电子邮件、文档、PDF)和二进制数据(图像、音频、视频)。——wikipedia

    数据平台

    数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集。——网络博客

    数据中台

        “以全域大数据建设为中心,技术上覆盖整个大数据从采集、加工、服务、消费的全链路的各个环节,对内对外提供服务。丰富的大数据生态组件,构成了阿里的核心数据能力,通过大数据生态组件,可以迅速的提升数据应用的迭代能力,人人都有可能成为大数据专家。”——《阿里巴巴全域数据建设》,阿里巴巴数据技术及产品部高级技术专家张磊,2017杭州云栖大会-阿里大数据分论坛

    “数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。”——《数据中台已成下一风口,它会颠覆数据工程师的工作吗?》,ThoughtWorks数据和智能总监史凯

        通俗的来看,以上六个数据概念按顺序整体呈现从小到大(指囊括的数据范围和层次),从后端到前台演变的趋势,这也反映出数据行业价值的转变。从前,IT是业务的后端,而数据是后端的后端,数据要往前走面临着巨大挑战,人们很难看到数据和价值的关系。如今,DT时代,数据通过中台直接面向业务来创造价值,数据的价值可以得到最直接的体现。

    2 对比介绍

    数据仓库作为数据行业发展时间轴上一以贯之的概念,它的存在见证了数据行业的发展,本文将以数据仓库为核心与其他五个概念的特性进行对比分析:

     

    • 数据仓库VS数据库

    一般来说,传统数据库是为存储而生,而数据仓库很明显,是为分析而生。

    传统数据库包括增删改查,但数据仓库注重查询。而传统数据库的主要任务是执行联机事务处理(OLTP)。主要负责日常操作。而数据仓库系统在数据分析和决策方面为用户或“知识工人”提供服务,可以以不同的格式组织和提供数据,以便应付不同的需求,这种系统称作联机分析处理(OLAP)。

     

    数据仓库

    数据库

    面向对象

    面向市场的,用于知识工人的数据分析

    面向顾客的,用户操作员,客户和信息技术人员的事务和查询处理

    数据内容

    管理大量历史数据,提供汇总和聚集机制,而且在不同的粒度层上存储和管理信息

    管理当前数据。一般这种数据比较琐碎,很难用于决策

    数据设计

    系统采用星形或雪花模型和面向主题的数据库设计

    采用实体联系数据模型和面向应用的数据库设计

    数据视图

    经常需要跨越数据库模式的不同版本

    关注一个企业或部门内部的当前数据,不涉及历史数据或不同单位的数据

    访问模式

    大部分是只读操作

    主要由短的原子事务组成,一般需要并发控制和恢复机制

     

    相信数据仓库和数据库的区别,大家都已经有所了解,这里就不做过多的解释了。

    • 数据仓库VS数据集市

    数据集市不同于数据仓库,一般是服务于某几个部门。数据仓库向各个数据集市提供数据,且一般来讲,数据仓库的表设计符合规范化设计,而数据集市一般使用维度建模。一般有两种类型的数据集市——独立性和从属性。独立性数据集市直接从操作型环境获取数据,从属性数据集市从企业级数据仓库获取数据。

    从属性数据集市结构如下图所示:

     

     上图所示的以数据仓库为基础的决策支持环境,要求数据仓库能够满足所有最终用户的需求。然而,最终用户的需求是不断变化的,而且各种类型的用户对信息的需求也不一样,这就要求数据仓库存储的数据具有充分的灵活性,能够适应各类用户的查询和分析。另一方面,最终用户对信息的需求必须易于访问,能够在较高的性能上获得结果。但是,灵活性和性能对数据仓库而言,是一对矛盾体。为了适应灵活性的要求,数据仓库需要存储各种历史数据,以规范化的模式存储(一般是第3范式)。于是,对于特定的用户,TA所需要的信息就需要在许多张很大的表上连接后得到结果,这样就无法满足用户对快速访问的性能需求。为了解决灵活性和性能之间的矛盾,数据仓库体系结构中增加了数据集市,数据集市存储为特定用户需求而预先计算好的数据,从而满足用户对性能的需求。

    独立型数据集市的存在会给人造成一种错觉,似乎可以先独立地构建数据集市,当数据集市达到一定的规模可以直接转换为数据仓库,然而这是不正确的,多个独立的数据集市的累积并不能形成一个企业级的数据仓库,这是由数据仓库和数据集市本身的特点决定的。如果脱离集中式的数据仓库,独立的建立多个数据集市,企业只会又增加了一些信息孤岛,仍然不能以整个企业的视图分析数据,数据集市为各个部门或工作组所用,各个集市之间又会存在不一致性。当然,独立型数据集市是一种既成事实,为满足特定用户的需求而建立的一种分析型环境,但是,从长远的观点看,是一种权宜之计,必然会被企业级的数据仓库所取代。

    数据仓库和数据集市的区别总结如下:

     

    数据仓库

    数据集市

    数据来源

    遗留系统、OLTP系统、外部数据

    数据仓库

    范围

    企业级

    部门级或工作组级

    主题

    企业主题

    部门或特殊的分析主题

    数据粒度

    最细的粒度

    较粗的粒度

    数据结构

    规范化结构(第3范式)

    星型模式、雪片模式或混合模式

    历史数据

    大量的历史数据

    适度的历史数据

    优化

    处理海量数据  数据探索

    便于访问和分析  快速查询

    索引

    高度索引

    高度索

        上文中提到诸多数据建模方法,如规范化建模、维度建模(星型模式、雪片模式、混合模式等)属于具体方法论范畴,感兴趣的同学可以查阅相关资料,便于对以上概念进行更深刻的理解。

    • 数据仓库VS数据湖

    相较而言,数据湖是较新的技术,拥有不断演变的架构。数据湖存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据。根据定义,数据湖不会接受数据治理,但专家们都认为良好的数据管理对预防数据湖转变为数据沼泽不可或缺。数据湖在数据读取期间创建模式。与数据仓库相比,数据湖缺乏结构性,而且更灵活;它们还提供了更高的敏捷性。值得一提的是,数据湖非常适合使用机器学习和深度学习来执行各种任务,比如数据挖掘和数据分析,以及提取非结构化数据等。

     

    数据仓库

    数据湖

    类型

    结构化数据,而且这些数据必须与数据仓库事先定义的模型吻合

    所有类型数据,如结构化数据、半结构化、非结构化数据等,数据的类型依赖于数据源系统的原始数据格式

    目的

    处理结构化数据,将他们或者转换为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求

    非常适合深度分析,包括高级数据分析、机器学习、深度学习等

    特点

    高性能、可重复性、持续使用

    便于探索、创新、灵活性高

    数据湖和数据仓库的差别很明显,然而在企业中两者的作用是互补的,不应认为数据湖的出现是为了取代数据仓库。

    • 数据仓库VS数据平台

    因数据仓库具有历史性,其中存储的数据大多是结构化数据,数据平台的出现解决了数据仓库不能处理非结构化数据和报表开发周期长的问题。

     

    数据仓库

    数据平台

    数据类型

    结构化数据

    所有类型数据,如结构化数据、半结构化、非结构化数据等

    服务方式

    为业务提供服务的方式主要是分析报表

    为业务提供的方式主要是直接提供数据集

    在以上的解读中,数据平台和数据湖好像存在诸多相似性,这二者的区别个人认为应该从数据加工的角度理解,数据湖更着重对原始数据的存储,数据平台则同数据仓库一样,需对原始数据进行清洗、转换等数据处理后进行统一规范存储。

    大数据时代,数据平台一般被称之为大数据平台。狭义上的大数据平台和传统数据平台的功能一致,只是技术架构和数据容量方面的不同,但广义的大数据平台通常被赋予更多的使命,它不仅存储多样化的数据类型,还具有报表分析等数据仓库的功能,以及其他数据分析挖掘方面的高级功能。

    • 数据仓库VS数据中台

    先说说数据中台,从数据中台的众多定义中我们可以总结出如下一些特点或目标:

    • 采集并致力跨域数据

    采集并加工“企业内外割裂的数据”,“治理跨域数据”,消除数据孤岛。

    • 形成数据资产层

    经过加工的数据,“实现数据资产化”形成“企业数据资产管理中枢”。各类人员可以直接从数据中台选用需要的数据。

    • 增强“数据应用”迭代能力

    提供组件化的加工能力,能够快速形成业务需要的数据产品,“可以迅速的提升数据应用的迭代能力”。

    • 形成API化的数据服务

    形成数据资产并封装成API服务后,应用和中台之间无缝衔接,形成高度自动化的数据应用流程。业务人员即使不了解大数据技术,也能实施数据驱动型的工作,“人人都有可能成为大数据专家。”

    • 业务为驱动的数据服务

    数据中台的目的是为前台业务提供服务,因此对数据的计算、加工都是以满足业务需求为目标。脱离场景的数据中台是不合理的。

    数据仓库也好,传统的数据平台也好,其出发点应该说更是一个支撑性的技术系统,即一定要去考虑我有什么数据,然后我才能干什么,因此特别强调数据质量和元数据管理,而数据中台的第一出发点可不是数据,而是业务,一开始不用看你系统里面有什么数据,而是去解决你的业务问题需要什么样的数据服务。

    在具体的技术处理环节,二者也有明显不同,数据的预处理流程正在从传统的ETL结构向ELT转变。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。而大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。

    概括地说,二者的关键区别有以下几方面:

     

    数据仓库/数据平台

    数据中台

    建设思想

    以数据为驱动,自下向上

    以业务为驱动,自上向下

    服务方式

    提供相关数据集或分析报表

    API化(或其他共享方式)的数据服务

    业务距离

    距离业务远,用于支持管理决策分析,业务价值无法直接体现

    距离业务近,加速企业从数据到业务价值的过程

    使用场景

    主要用于分析型场景

    不仅适用于分析型,也适用于交易型等场景

    处理结构

    ETL结构

    ELT结构

    身处大数据行业,最后想简单的说说大数据平台和数据中台。上文中提到,广义的大数据平台是一个企业级的超融合概念,无论是数据采集、存储、处理、分析等环节在技术架构上和数据中台并无明显区别,个人认为当大数据平台满足以业务为驱动的建设模式和数据服务化的条件,大数据平台一般也可看做是数据中台。但需认识到,不少大数据平台还是属于以数据为驱动进行建设的传统数据仓库平台,以数据集中化为目标,很少考虑它的业务价值和具体业务的数据服务内容和形式,这也是直接导致不少大数据平台利用率较低或者价值较低的一个非常重要的原因。

    3 总结

    以上的概念是随着数据行业的发展不断涌现的新兴概念,但新兴概念的出现不是为了取代旧的概念,他们之间更多的应该是相互补充,相互融合的关系。我们不应一味的迎合潮流,强行向流行靠拢,也不应因循守旧而错失与时俱进的最佳时机。

    为了更好的理解上述概念,基于个人理解将上述概念分为两个类别:一个是偏技术性数据概念,包括数据库、数据集市、数据仓库、数据湖等,另一个是偏业务性数据概念,包括大数据平台、数据中台等。以上分类可以帮助我们更好的理清他们之间的联系,偏业务性数据概念的实现或多或少会用到或融合偏技术性的数据概念或是基于技术性数据概念的架构,从这个角度出发,或许可以更好理解它们之间相互补充、相互融合的关系。例如,第三方IT研究与顾问咨询公司Gartner联袂某国内厂商发布的基于数据湖架构的大数据平台,据悉是国内首个企业级的私有云数据湖,是新一代的数据汇聚、共享、交换、开放平台。

        当我们正在感叹从数据仓库到数据湖、从数据平台到数据中台的演化如此迅速之时,其它新兴的数据概念也已悄然到来。例如数据网络(Data mesh)概念的提出,改变了数据湖或者数据仓库的集中式范式,将企业数据平台从单体式架构演进成具有微服务特性的分布式数据平台,而这种架构应该更能满足数据中台关于灵活的数据服务化的要求。数据时代发展日新月异,新兴概念层出不穷,我们唯有保持足够的学习热情并积极的思考其内在的演进逻辑才能紧跟时代前沿,创造性的解决一些难题。

    以上相关概念当放在两两对比的角度总是容易从狭义且严格的定义中来找不同,实际上,在工作中,广义的理解可能更有利于工作的开展,比如数据仓库和数据集市的区别,狭义上是属于数据层次的不同,广义上当我们谈到企业级数据仓库时,个人认为把他理解为包含了众多从属性数据集市的数据仓库也是可以的。弱化一下较小且细的概念在跨专业或者工作组的沟通上,可能会更加高效和容易一些。但这一切的前提需建立在对相关概念的深刻理解之上,只有这样能才举重若轻、收放自如。

    所以,以上对概念的理解应作为对日后相关工作框架性的指导,而非严格的约束,在生产过程中我们应结合企业自身特点兼顾效率,这样才能达到较好的效果,毕竟适合自己的才是最好的。

    以上内容来自于网络博客和个人的观点,但均属一家之言,对于总结或者分析不对的地方,欢迎指正。

     

    参考资料

    1.超越数据平台!阿里推崇的数据中台到底是什么样的

    https://baijiahao.baidu.com/s?id=1645427586926296393&wfr=spider&for=pc

    2.辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)

    https://blog.csdn.net/zhaodedong/article/details/101139388

    3.数据仓库和数据集市的概念、区别与联系

    https://blog.csdn.net/weixin_42575593/article/details/84763340

    4.《数据资产管理实践白皮书4.0版》

    5.从数据仓库到大数据,数据平台这25年是怎样进化的?

    https://blog.csdn.net/weixin_30826095/article/details/96178130

    6.什么是数据湖?有什么用?终于有人讲明白了……

    https://blog.csdn.net/zw0Pi8G5C1x/article/details/87910161

    7.Data Lake与数据仓库

    https://blog.csdn.net/Tybyqi/article/details/86647607

    8.数据仓库与数据湖之间有何区别?

    https://my.oschina.net/hblt147/blog/3024677

    9.分布式数据平台Data Mesh

    https://zhuanlan.zhihu.com/p/83134986

    10.基于数据湖架构的大数据平台:品高云与Gartner联合报告

    https://blog.csdn.net/chuanzhongdu1/article/details/84848380

     

    展开全文
  • 数据中台就是以云计算为数据智能提供的基础计算力为前提,与大数据平台提供的数据资产能力与技术能力相互结合,形成数据处理的能力框架赋能业务,为企业做到数字化、智能化运营。 目前,外界与业内很多人对于数据中...

    在大数据时代,凡是AI类项目的落地,都需要具备数据、算法、场景、计算力四个基本元素,缺一不可。

    处理大数据已经不能仅仅依靠计算力就能够解决问题,计算力只是核心的基础,还需要结合不同的业务场景与算法相互结合,沉淀出一个完整的智能化平台。

    数据中台就是以云计算为数据智能提供的基础计算力为前提,与大数据平台提供的数据资产能力与技术能力相互结合,形成数据处理的能力框架赋能业务,为企业做到数字化、智能化运营。

    目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用,强调技术对于业务的推动作用,但在商业领域落地的层面上,更多时候技术的发展和演进都是需要跟着业务走,技术的发展和进步需要基于业务方的需求与数据场景应用化的探索来反向推动。

    这个也就是为什么最近知乎、脉脉都在疯传阿里在拆“大中台”?个人猜想,原因是没有真正理解中台的本质,其实阿里在最初建设数据中台的目的主要是为了提升效率和解决业务匹配度问题,最终达到降本增效。

    所以说“拆”是假的,在“拆”的同时一定在“合”,“拆”的一个方面是企业战略布局层面上的规划,架构升级,如果眼界不够高,格局不够大,看到的一定只是表面;另一方面不是由于组织架构庞大而做“拆”的动作,而是只有这样才能在效率和业务匹配度上,做到最大利益化的解耦。

    数据中台出现的意义在于降本增效,是用来赋能企业沉淀业务能力,提升业务效率,最终完成数字化转型。前一篇数据中台建设的价值和意义,提到过企业需要根据自身的实际情况,打造属于自己企业独有的中台能力。

    因为,数据中台本身绝对是不可复制的,从BCG矩阵的维度结合各家市场资源、市场环境、市场地位以及业务方向来看,几乎所有企业的战略目标都是不一样的。

    一、数据中台演进的过程

    从数据处理的维度来聊一聊数据中台经历的四个阶段:数据库阶段、数据仓库阶段、数据平台阶段、数据中台阶段。

    1. 数据库阶段:OLTP(事务处理)是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,记录即时的增、删、改、查。比如银行交易、电商交易等
    2. 数据仓库阶段:数据仓库系统的主要应用主要是OLAP(联机分析处理),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。比如复杂的动态报表分析、用户价值分析等
    3. 数据平台阶段:其实,目前业界并没有对大数据平台做统一的定义,一般情况下,只要使用了Hadoop/Spark/Storm/Flink等这些分布式的实时或者离线计算框架,建立计算集群,并在上面运行各种计算任务
    4. 数据中台阶段:指具有全域级、可复用的数据资产中心与数据能力中心,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,提供干净、透明、智慧的数据资产与高效、易用的数据能力来,能够对接OLTP(事务处理)和OLAP(报表分析)的需求

    数据平台的4个阶段:从数据库到数仓再到中台,超详细的架构全解

     

    刚好之前本人经历过电商公司的0 - 1 - N,就拿电商行业来举个例子,更好的让大家理解数据中台演进的四个阶段

    1、数据库阶段

    电商创业早期启动非常容易,门槛相对来说较低,试错成本较少。三五个小伙伴组个小团队,做一个可以下单的前端页面,云上搭几台服务器再加上一个MySQL数据库,形成一个简单的OLTP系统,就可以给用户去使用,它的主要作用用于保证数据持久化存储和简单商品交易查询。

    现在估计很多小型电商与小程序创业者的初期都是这么干的,甚至找个外包团队做完就开始对于市场试错。

    原因很简单,从ROI来看,项目前期业务数据量不大,简单的GB级别,每天的订单和流量数都比较少,后端数据库只要做简单的单条数据的查询和展示就能够满足了需求,根本就没有什么高并发,批量处理等高深技术,就连做在初期做数据统计/分析用Excel就可以满足需求。

    最终,随着客户、订单和外部流量的逐步上升,数据量从GB发展成TB级别,数据库通过普通查询存在较大的压力,只能做升级改造,于是就有了数据仓库的诞生。

    2、数据仓库阶段

    随着业务指数级的增长,数据量增长的同时公司的组织架构慢慢变得庞大、复杂,面临的问题也越来越多,越来越深入。公司上层关心的问题,从最初简单的想知道“昨天、今天的GMV”、“上周的PV、UV是多少”、“某品类商品的环比、同比的增长比例是多少”,慢慢演化到希望通过数据进行精细化运营和用户的价值模型分析。

    希望通过数据统计/分析/挖掘,分析出用户在某种特定的使用场景中,比如“18~25岁女性用户在过去三个月对服装类商品的购买行为与节假日促销活动之间的关系”。

    当公司运营和高层,提出此类非常具体的case,希望通过数据统计/分析/挖掘对公司运营决策起到关键性作用的问题,其实是很难从业务数据库从直接调取出来。

    原因是由于数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,为捕获数据而设计,在设计上数据库是尽量避免冗余,一般采用符合范式的规则来设计。

    比如,业务数据库中的数据结构是为了完成商品交易而设计的,不是为了查询和分析的便利设计的。数据仓库存储的一般是历史数据,为分析数据而设计,在设计上是有意引入冗余,采用反范式的方式来设计。

    数据库和数据仓库两个基本的元素都有维表和事实表。(维表是看问题的角度,比如时间,部门、人,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维表的ID)。

    因此,数据仓库的出现,并不是要取代数据库,而是为了更好的做数据分析和报表需求分析,主要处理OLAP(联机分析处理)需求。

    但是,随着客户、订单和外部流量的逐步上升,数据量从TB发展成PB级别,原来的技术架构越来越不能支持海量数据处理,这时候又有了数据平台的诞生。

    3、数据平台阶段

    第一、企业业务系统过多,彼此数据没有打通。涉及分析数据的过程当中,需要先从各个系统寻找到相应的数据,然后提取数据进行整合打通,才能做数据分析。在这个过程中人为进行整合出错率高,分析效果不及时,导致整体的效率低下,数据迁移、数据同步的滞后与错误;

    第二、业务系统压力大,架构相对笨重,做数据分析计算消耗资源很大。需要通过将数据抽取出来,经过独立服务器来处理数据查询、分析任务,来释放业务系统的压力;

    第三、性能问题,公司业务越来越复杂,数据量越来越大。历史数据的积累严重,数据没有得到使用。原始数据系统不能承受更大数据量的处理时,数据处理效率严重下降。

    于是,通过整合Hadoop/Spark/Storm/Flink等分布式的离线与实时计算框架,建立计算集群,并在上面运行各种计算任务,搭建大数据平台,使得平台具有数据互联互通、支持多数据集实时同步、支持数据资源管理,实现多源异构数据的整合管控能力;

    可以提供完善的大数据分析基础运行环境,提供统一二次开发接口等能力的,用这些能力来解决大数据存储与计算问题,提升数据分析效率以及用户画像系统/推荐/搜索系统的运用落地。

    4、数据中台阶段

    数据量的指数级增长,从PB发展成EB级别,为了更好的赋能业务,企业启动中台战略,打通各个业务线的数据,整合汇集数据,在底层通过技术手段解决数据统一存储和统一计算问题。

    在数据服务层通过数据服务化的Data API的方式,打通数据平台和前台的业务层对接,结合算法,把前台业务的分析需求和交易需求直接对接到中台来,通过数据中台处理和逻辑运算,然后在反向赋能业务,真正做到意义上的『一切业务数据化,一切数据业务化』。

    二、数据仓库、数据平台和数据中台的架构

    数据平台的4个阶段:从数据库到数仓再到中台,超详细的架构全解

     

    数据仓库架构图

    1、采集层

    从各种数据源中采集数据和存储到数据到存储在基于Hadoop分布式文件系统HDFS上,期间做ETL操作。其中数据采集一般采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上

    数据源主要有:日志数据(服务器日志 + 系统日志等)+ 业务数据库(Mysql、Oracle等)+ 埋点数据(服务端埋点 + 移动端埋点数据等)+ 其他数据(Excel手工录入的数据、合作伙伴提供的接口数据、第三方爬虫数据、合法购买的第三方数据等)

    2、存储与分析层

    主要有离线计算 + 实时计算

    • 存储系统:基于Hadoop分布式文件系统对采集层的数据进行存储
    • 消息系统:加入Kafka防止数据丢失
    • 离线计算:是对实时性要求不高的部分,通常将计算结果保存在Hive中
    • 实时计算:使用Spark Streaming、Storm消费Kafka中收集的日志数据,然后通过实时计算,将结果保存在Redis中
    • 机器学习:用Spark MLlib提供的机器学习算法

    3、共享层

    通过离线和实时计算的数据分析与计算后的结果存储在数据共享层,做数据共享层,主要做数据分发和调度中心。因为通过Hive、MR、Spark、SparkSQL分析和计算的结果,是存储在HDFS上,业务和应用不可能直接从HDFS上获取数据。其中使用Kylin作为OLAP引擎做多维度分析

    4、数据应用

    报表展示 + 数据分析 + 即席查询 + 数据挖掘

    5、任务调度与监控

    数据平台的4个阶段:从数据库到数仓再到中台,超详细的架构全解

     

    数据平台架构图

    1、采集层

    基于Hadoop分布式文件系统对采集层的数据进行存储。

    • 结构化数据:通过两种途径抽取并存放到HDFS分布式文件系统中,能够序列化的数据,直接存放到HDFS中;不能够序列化的数据,通过数据整理后统一存放在分布式数据库环境中, 再经过序列化后和整理后还不能序列化的数据一样直接存放到HDFS中;
    • 半结构化和非结构化数据:各种日志数据(通常序列化半结构化数据)直接存放到HDFS中;点击流和数据接口中的数据(通常序列化半结构化数据)直接存放到HDFS中;非结构化的数据直接存放到HDFS中

    2、数据层

    一方面,把相关业务结构化数据和有一定格式关系的半结构化的数据存放在Hadoop Hive数据仓库中,基于业务需求,按照特定的业务主题域进行数据集市的构建;另一方面把相关业务中半结构化的数据直接存放在HDFS分布

    3、计算层

    离线计算 + 实时计算

    4、应用层

    可视化数据分析报表 + 搜索/推荐/广告具体的场景应用

    5、任务调度与监控

    数据平台的4个阶段:从数据库到数仓再到中台,超详细的架构全解

     

    阿里数据中台架构图

    1. 为了保证快速、高效、高质量数据接入,建立统一数据质量管理平台 + 数据能力中心
    2. 通过数据采集和接入为切入角度,按照业态接入内部数据(比如淘宝、天猫、盒马等)+ 外部数据(爬虫数据、第三方合作数据、埋点数据等)
    3. 把数据抽取到计算平台,通过以“业务板块 + 业务过程 + 分析维度”为架构去构建“数据共享中心”,构建OneData体系
    4. 在数据共享中心的上层,以业务/自然对象 + 萃取标签“为架构构建“数据唯一中心”,构建OneID体系,打通消费者数据体系、企业数据体系、内容数据体系等
    5. 经过深度加工后,得到干净、透明、智慧的数据赋能产品与业务线;通过统一的数据服务中间件“OneService”提供统一数据服务,让『一切业务数据化,一切数据业务化』

    三、数据仓库、数据平台和数据中台的区别与联系

    数据仓库、数据平台和数据中台的区别与联系:

    1、在概念层面上

    数据平台和数据中台的技术能力都是基于数据仓库发展而来的,在数据建设理论上一脉相承,他们处理的对象都是海量数据,服务目的、商业价值也同样类似。其实中平台和中台,两者在能力上都有对外都提供Open API服务。

    一方面,中台是业务应用,不具体代表着某种技术,它不是最终用户能直接使用的,必须结合企业的各个数据业务场景;另一方面,平台是不带有业务特征性质的,主要汇集其他人的能力,整合成平台的能力,相对来说是静态的,而中台是动态变化的本身,需要通过数据驱动的方式来滋养业务,不断训练调整业务模型和业务算法提供的能力,提供给其他系统和平台集成的能力。

    2、在数据层面上

    数据仓库的数据来源主要来源于RDBMS,其中存储的数据格式以结构化数据为主,这些数据并非企业全量数据,而是根据企业业务需求做针对性整合、抽取。数据平台和数据中台的数据来源的期望都是全域级的数据,主要有结构化数据、半结构化数据、非结构化数据等

    3、在目标层面上

    • 数据仓库基于单机的,一旦数据量变大,会受单机容量、计算以及性能等方面的限制。主要用来做报表分析,目的性相对来说单一,只是针对相关分析报表用到基础数据,进行抽取、整合、数据清洗和分析。比如,新增一张报表,就要从底层到上层再做一次,流程上相对来说繁琐;
    • 数据平台建立是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题以及计算和性能等问题。汇集整合打通数据,数据清洗后,当业务提出需求的时候,把业务方需要的若干个小数据集单独提取出来,以数据集的形式提供给业务方去使用;
    • 数据中台通常会对来自多方面的基础数据进行数据清洗后,然后按照主题域的概念建立多个以事物为主的主题域;和数据平台在底层建设上都是基于分布式计算平台和存储平台,理论上可以通过无限扩充平台的计算和存储能力。目标是都是为了融合整个企业的全域级数据,打通数据之间的隔阂,消除数据标准和口径不统一的问题。

    4、在应用层面上

    建立在数据中台上的数据应用场景,不仅仅只是面向于数据报表开发分析与展示处理,更多是将数据变成服务化的方式,然后提供给业务系统。

    展开全文
  • 数据平台简介

    千次阅读 2018-10-31 18:28:31
    为了给各个业务平台提供稳定可靠的数据 提供一个通用的数据处理流程解决方案 生成一些面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合 整合多个数据源的历史数据进行细粒度的、多维的分析 说白了...

    目标

    1. 为了给各个业务平台提供稳定可靠的数据
    2. 提供一个通用的数据处理流程解决方案
    3. 生成一些面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合
    4. 整合多个数据源的历史数据进行细粒度的、多维的分析
    5. 说白了就是读取数据–>生产数据–>交付数据的过程

    一些概念

    ETL

    ETL,Extraction-Transformation-Loading的缩写,中文名为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。

    数据仓库

    数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

    目前要解决的问题

    1. 需要任务调度监控平台来管理数据读取、生产、交付的一系列脚本,任务的调度与监控。
    2. 需要一个API接口平台来满足一些数据的即席查询。
    3. 需要一个数据同步平台来将生产完成的数据同步到各个业务端。
    4. 需要一个数据检测平台来控制交付数据的质量。
    5. 需要一个BI数据展示的平台来清晰地展示不同角色关注的各个维度数据。

    解决方案

    1. 使用airflow来搭建ETL系统,即编排调度一系列数据的采集脚本,清洗脚本,数据汇总,聚合,预计算多维度指标的工作。提供任务监控以及webUI可视化任务依赖。
    2. 使用dataX来完成数据同步工作。
    3. 使用lumen来做API接口平台。
    4. 数据检测平台和BI展示一期暂时不考虑。

    技术栈

    airflow(python)、lumen、postgreSQL、dataX、elasticsearch
    后期基于数据量会做spark分布式集群离线计算,hdfs存储,流计算、hive等

    理想状态

    后期的日志分析可以接入ETL系统来分析用户行为,用户画像,提高系统的安全性。
    对绩效日报,周报,年报等数据展示汇总提供更短的时延,降低业务系统的负载。
    对ERP数据进行汇总分析来为领导层决策提供参考。
    对APP日志进行汇总分析来为产品设计和运营提供一些数据事实依据。
    同时面对数据极速增长情况下大数据分析也能够得心应手。

    “罗马不是一天建成的”

    展开全文
  • 数据平台建设

    万次阅读 2020-12-09 22:09:19
    - 数据质量层次不齐 - 数据交换和共享困难 - 缺乏有效的管理机制 - 存在数据安全隐患

    数据平台建设

    平台要解决的问题

    • 数据质量层次不齐
    • 数据交换和共享困难
    • 缺乏有效的管理机制
    • 存在数据安全隐患

    平台架构要求的能力

    • 无数据模型的架构

    很多时候数据处理都是在一个无模式或者非结构化或者半结构化的数据集上进行处理

    • 近实时的数据采集

    批量采集和实时采集

    • 微批处理的能力

    基础设施的要求

    • 线性可扩展
    • 高吞吐量
    • 容错能力
    • 分布式数据处理

    具体的平台化工具

    任务调度系统

    • 数据采集任务、数据同步任务、数据清洗任务、数据分析任务等;这些任务除了定时调度,还存在非常复杂的任务依赖关系,比如:数据分析任务必须等相应的数据采集任务完成后才能开始;数据同步任务需要等数据分析任务完成后才能开始;
    • 调度系统,更确切地说,作业调度系统(Job Scheduler)或者说工作流调度系统(workflow Scheduler)是任何一个稍微有点规模,不是简单玩玩的大数据开发平台都必不可少的重要组成部分。

    除了Crontab,Quartz这类偏单机的定时调度程序/库。开源的分布式作业调度系统也有很多,比较知名的比如:oozie,azkaban,chronos,zeus等等,此外,还有包括阿里的TBSchedule,SchedulerX,腾讯的Lhotse,当当的elastic-job,唯品会的Saturn等等

    可以说,几乎每家稍微有点规模的数据平台团队,都会有自己的调度系统实现方案,要不然自研,要不然在开源的基础上进行一些封装和改造(比如很多公司采取了封装oozie的方式)。

    资源调度系统,它的工作重点是底层物理资源的分配管理,目标是最大化的利用集群机器的CPU/磁盘/网络等硬件资源,所调配和处理的往往是与业务逻辑没有直接关联的通用的程序进程这样的对象。

    作业调度系统有时也会考虑负载均衡问题,但保证负载均衡更多的是为了系统自身的健壮性,而资源的合理利用,作为一个可以优化的点,往往依托底层的资源调度系统来实现。

    一个成熟易用,便于管理和维护的作业调度系统,需要和大量的周边组件对接,不仅包括各种存储计算框架,还可要处理或使用到包括:血缘管理,权限控制,负载流控,监控报警,质量分析等各种服务或事务。这些事务环节,在每家公司往往都有自己的解决方案,所以作业调度系统所处的整体外部环境,千差万别,再加上各公司各种业务流程的定制化需求进一步加大了环境的差异性,所以,调度系统很难做到既能灵活通用的适配广大用户的各种需求,又不落到太过晦涩难用的地步。

    调度类型

    依赖调度
    • 父依赖执行完开始执行
    时间调度
    • 到达特定的时间点开始执行

    依赖推荐

    • 随着数仓的建设,表越来越多,依赖推荐尤为重要,自动依赖推荐可以避免少添加依赖的数据错误(数据错误任务状态不会错误,不容易发现,只能通过数据质量监控平台或者业务方反馈)、多添加依赖的无用等待,以及循环依赖的致命错误

    基线控制

    大数据离线计算通常作业执行时间比较长,如果不能及时发现问题,重跑需要几个小时,显然来不及

    统一管理
    • 统一管理作业的完成时间、优先级、告警策略、保证数据加工按时完成,调度模块需要根据重要性、优先级、最短执行时间策略进行动态资源调整,让资源利用率最大化,损失最小化
    算法预测和调控
    • 算法对正常数据进行训练,当作业无法正正常产出和动态调整资源无法完成的时候,调度中心会通知运维和值班人员进行接入处理。

    代码校验

    • 设计了代码上线时候的语法检测,并且设计了试运行和线上以及测试三种运行模式,上线的时候必须有试运行成功的记录

    环境隔离

    • 通过运行模式实现了测试和试运行以及线上形成了测试环境、uat环境、线上三种环境

    多引擎支持

    • 支持自定义脚本,hive,sprk,python,等多种引擎

    功能

    • 用户可以在管控后台中,自主的对拥有权限的作业/任务进行管理,包括添加,删除,修改,重跑等。对没有权限的作业,只能检索信息。
    • 支持当日任务计划和执行流水的检索,支持周期作业信息的检索,包括作业概况,历史运行流水,运行日志,变更记录,依赖关系树查询等
    • 支持作业失败自动重试,可以设置自动重试次数,重试间隔
    • 支持历史任务独立重刷或按照依赖关系重刷后续整条作业链路
    • 允许设置作业生命周期,可以临时禁止或启用一个周期作业
    • 支持任务失败报警,超时报警,到达指定时间未执行报警等异常情况的报警监控
    • 支持动态按应用/业务/优先级等维度调整作业执行的并发度
      调度时间和数据时间的分离

    支持灰度功能,允许按特定条件筛选作业按照特定的策略灰度执;根据血缘信息,自动建立作业依赖关系;任务日志分析,自动识别错误原因和类型

    元数据管理系统(元数据治理)

    数据安全

    数据安全——权限
    • 核心数据的权限管理
    数据安全——脱敏
    • 数据脱敏

    血缘关系

    数据生命周期管理

    数仓的治理规范的落地

    • 建表的权限
    • 命名是否规则

    数据质量监控平台

    随着大数据时代的带来,数据的应用也日趋繁茂,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。而且,数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提!如何保障数据质量,确保数据可用性是每一位数据人都不可忽略的重要环节。

    • 完整性、准确性、一致性和及时性
      image-20201205191525265

    image-20201205191545457

    完整性

    • 完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,所以说完整性是数据质量最基础的保障
    • 考虑两个方面:一是,数据条数是否少了,二是,某些字段的取值是否缺失。完整性的监控,多出现在日志级别的监控上,一般会在数据接入的时候来做数据完整性校验。
    数据同步工具故障
    数据被归档

    准确性

    • 准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误的信息
    • 直观来讲就是看数据是否上准确的。一般准确性的监控多集中在对业务结果数据的监控,比如每日的活跃、收入等数据是否正常
    • 常见的度量规则,空值检测、重复值检测、相关性检测、波动性检测、阈值检测、业务逻辑规则检测(非常重要)

    一致性

    • 一致性是指同一指标在不同地方的结果是否一致
    • 数据不一致的情况,多出现在数据系统达到一定的复杂度后,同一指标会在多处进行计算,由于计算口径或者开发人员的不同,容易造成同一指标出现的不同的结果。

    及时性

    • 在确保数据的完整性、准确性和一致性后,接下来就要保障数据能够及时产出,这样才能体现数据的价值
    • 及时性很容易理解,主要就是数据计算出来的速度是否够快,这点在数据质量监控中可以体现在监控结果数据数据是否在指定时间点前计算完成。
    • 主要随着数据规模的变化,导致边界问题对数据的及时性的影响越来越大(集群故障、网络故障、流量激增)

    其实主要是数据源的监控、数据指标的监控、数据表的监控、高级一点的会涉及到全链路的监控

    监控平台设计思路

    数据:主要是需要被数据质量监控到的数据,数据可能存放在不同的存储引擎中,比如Hive、PG、ES等。
    
    规则:是指如何设计发现异常的规则,一般而言主要是数值的异常和环比等异常监控方式。也会有一些通过算法来发掘异常数据的方法。
    
    告警:告警是指出发告警的动作,这里可以通过微信消息、电话、短信或者是微信小程序的方式来触发告警内容。
    
    反馈:这里需要特别注意,反馈是指对告警内容的反馈,比如说收到的告警的内容,那么负责人要来回应这个告警消息是否是真的异常,是否需要忽略该异常,是否已经处理了该异常。有了反馈的机制,整个数据质量监控才容易形成闭环。更能体现业务价值。
    

    image-20201205191417368

    • 问题:告警信息太多了,容易被忽略,主要是思路是提高告警的准确率,避免无用的告警

    多使用机器学习算法的方式来发现异常点,比如:异常森林。

    加入反馈机制,如果业务负责人认为该告警是正常的,就打上正常的tag,后续告警规则根据反馈进行优化。

    加入屏蔽功能,屏蔽不感兴趣的告警。

    数据同步平台

    • 主要有增量同步、全量同步、基于binlog 的实时同步,不论哪种方式到最后都涉及到数据更新合并的问题
    • 由于数据湖的发展,可能会改变基于binlog 的同步方式(离线——(kafka/hbase),实时——hbase)
    • 这个平台也很重要,因为这是一切的数据来源,而且随着业务的发展,要对接各种各样的数据源,数据同步平台的稳定与准确是一切的基础保障

    数据同步方式(工具)

    数据库直连同步

    -sqoop

    数据库文件同步
    • 自定义脚本

    会遇到两个问题,一个是网络波动可能会丢包,另一个是源文件比较大需要进行压缩传输。因而通常在传输数据文件的同时,会上传一个校验文件,检测数据量、文件大小等信息,以保证数据同步的准确性

    数据库日志解析同步
    • maxwell、cancel

    大多数主流数据库都可以通过日志文件的方式进行系统的恢复,并且由于日志文件的信息记录非常完整,格式解析也很稳定,因而完全可以通过解析数据库日志文件来获得发生变更的数据,再更新离线系统以最大提升效率

    数据更新

    • 数据库日志解析实现了准实时同步的能力,对业务系统的影响也很小,因而广泛的应用在了从业务系统到数据仓库的增量数据同步应用之中。值得注意的是,由于数据仓库对于更新操作支持比较差,通常会采用先删除、再插入的方式来模拟更新操作
    • 主要实现方式有两种,一种是通过join 的方式,另外一种是row_number()的方式

    数据延迟、处理数据量较大及数据漂移,因而中间系统的建设也需要进行一定的编码开发,以消除数据不一致的情况

    数据资产服务平台

    • 数据资产的定义是由企业拥有或者控制的,能够为企业未来带来经济利益的,以物理或者电子方式记录的数据资源,如文件资料或者数字资料
    • 对外提供数据支持,直接服务于各个业务线已经公司的数据分析师,只有业务能够读懂能够理解的数据才叫数据资产

    数据分析平台(adhoc)

    • 相对于adhoc 而言提供了可视化的功能
    • zeeplin
    • superset
    • adhoc(自研)

    接口服务(数据资产服务平台)

    • 提供sql 的方式进行接口配置,对接口进行统一管理,安全、性能、稳定性、生命周期、监控
    • 充当数据的提供方,报表数据、计算指标、明细数据、用户画像数据

    报表服务(数据资产服务平台)

    • BI 工具,支持报表和 Dashboard
    • 需要接口服务的接口(其实也可以直接采用sql 配置的方式)

    实时数仓

    • 资源层面——所有调度任务只能在业务闲时(凌晨)集中启动,集群压力大,耗时越来越长;
    • 业务层面——数据按T+1更新,延迟高,数据时效价值打折扣,无法精细化运营与及时感知异常。

    实时数仓即离线数仓的时效性改进方案,从原本的小时/天级别做到秒/分钟级别。

    底层设计变动的同时,需要尽力保证平滑迁移,不影响用户(分析人员)之前的使用习惯

    指导思想:Kappa架构

    计算引擎

    • 批流一体化——能同时进行实时和离线的操作
    • 提供统一易用的SQL interface——方便开发人员和分析人员

    底层(事实数据)存储引擎

    可靠存储——有一定持久化能力,高可用,支持数据重放。

    • kafka

    实时平台

    展开全文
  • 怎么搭建可视化BI数据平台(下)

    万次阅读 2020-10-23 09:51:59
    怎么搭建可视化BI数据平台(下) 1、开源BI平台superset搭建 由于笔者用Win10安装superset一直失败,就转战用anaconda来创建虚拟环境来安装 按照这篇博客来,过程还是挺顺利的 附录: flask wtforms_json flask_...
  • 近年来,数据中台之火爆,什么数据平台、数据中台、数据湖、数据集市等等,不同的叫法把大家绕的云里雾里,概念混淆不清,着实让人摸不着头脑…… 正如我们清楚的知道企业要进行数字化驱动架构之前,必须要建立统一...
  • 数据库自动化运维平台--元数据平台

    千次阅读 2017-04-12 15:00:08
    数据库元数据平台 很多DBA可能都用过Excel来维护数据库集群列表,在公司数据库集群规模比较小,用这种方式维护也是很简单方便的。但随着数据实例越来越多达到了上百上千的时候,再用这种方式维护就要崩溃了。所以...
  • 工业互联网:4 数据平台

    千次阅读 2018-11-25 15:53:33
    4 数据平台 为什么会有物联网的数据平台呢?从某种程度上说,数据平台才是最具物联网特色的东西。虽然提到物联网,很多人脑海中第一个闪现的是传感网络,但实际上,如果你读过前几章就会发现,实际上所谓物联网,...
  • 目录数据平台数据中台数据平台与数据中台的区别与联系区别联系整体架构硬件层&虚拟化数据平台存储能力计算能力管理平台数据中台数据仓库数据集市数据开发数据运维赋能对象赋能管理者赋能业务运营赋能业务中台...
  • 除了之前可以支撑的决策分析以外,大数据与线上事务系统(OLTP)的联动场景非常多,比如我们在电商平台查询个人所有历史订单,再比如一些刷单、反作弊的实时拦截,以及一些实时推荐等,这些都是通过将数据的运算交给...
  • 而在很多细分领域(例如实时计算、作业调度)也没有像样的工程模板,这导致很多团队在启动大数据平台建设时往往感到无所侍从,也使得希望深入学习大数据技术的开发者由于缺少工程级的示例参考而感到迷茫。如果在...
  • 近年来,数据中台之火爆,什么数据平台、数据中台、数据湖、数据集市等等,不同的叫法把大家绕的云里雾里,概念混淆不清,着实让人摸不着头脑…… 正如我们清楚的知道企业要进行数字化驱动架构之前,必须要建立统一...
  • 个人理解数据中台与大数据平台区别
  • 背景 作为一家高度数字化和技术驱动的公司,美团非常重视数据价值的挖掘。在公司日常运行中,通过...各种数据平台拥有不同的特色和定位,例如:自助报表平台、专业数据分析平台、CRM数据平台、各业务方向绩效考核...
  • MPai数据科学平台

    万次阅读 多人点赞 2020-08-27 15:47:07
    普通人要学数据,需要学习大量的、各类型的数学模型,需要翻阅需要文献来积累分析模板,也就是分析流程,掌握了理论,还需要把学习工具,一些工具没法实现的模型只能通过matlab、python、R等编程语言来实现,因此...
  • 大数据平台-元数据管理系统解析

    万次阅读 多人点赞 2018-03-14 09:25:24
    在前面的集成开发环境建设相关文章中,我们也提到过,元数据MetaData狭义的解释是用来描述数据数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫...
  • 数据库, 数据仓库, 数据集市,数据湖,数据中台

    千次阅读 多人点赞 2019-02-22 16:21:47
    数据仓库和数据集市的区别 作者:修鹏李 出处:CSDN 大数据:数据仓库和数据库的区别 作者:南宫蓉 出处:简书 第一篇:数据仓库概述 第二篇:数据库关系建模 作者:穆晨 出处:CNBLOS 摘要 本文简要介绍...
  • 联通数据能力开放平台介绍

    万次阅读 2018-10-11 15:04:37
    1.概述:2017年9月25日,联通大数据有限公司(定位:大数据对外商业应用的集中运营主体与大数据产业拓展的合资合作...2.数据能力开放平台-提供开放数据平台,支持数据模型;3.风控平台-提供风控数据验证评分;4.沃...
  • 统一配置数据源:蓝鲸配置平台

    千次阅读 2018-09-07 18:12:48
    关注嘉为科技,获取运维新知   目录 1、蓝鲸简介 2、传统CMDB建设的问题 3、蓝鲸配置平台设计理念 ...4、CMDB实施中需要解决的核心问题 ...蓝鲸智云,简称蓝鲸,是...平台提供了完善的前后台开发框架、调度引擎、公...
  • KepOPC是基于开源工具开发的OPC client(OPC客户端)跨平台中间件软件,他支持目前市面上绝大多数国内外OPC SERVER的OPC DA1.0/2.0/3.0、OPC UA协议的数据读写,如(Kepserver、Matrikon、GE IGS、亚控、力控等),...
  • 大数据平台的元数据管理

    千次阅读 2019-03-23 00:27:17
    2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据...
  • 如何搭建企业大数据分析平台

    千次阅读 2019-04-02 09:13:54
    讨论一:先来谈谈企业搭建大数据分析平台的背景。1、搭建大数据平台离不开BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的...
  • 引言——首先来聊聊现代企业数据架构及痛点: 数据孤岛:低效率和利用困难的根源 应用瓶颈:传统方案数据仓库、数据湖的不足   单讲这两个问题你可能会疑惑——为什么会出现这样的问题?   所以下面来讲讲两个...
  • 数据可视化平台理论与实践

    万次阅读 2017-08-02 09:32:26
    前面说完了大数据开发平台的核心组件,作业调度系统,接下来讨论一下大数据开发平台的脸面之一,数据可视化平台
  • 今天为大家介绍几款数据采集平台:  Apache Flume  Fluentd  Logstash  Chukwa  Scribe  Splunk Forwarder  大数据平台数据采集  任何完整的大数据平台,一般包括以下的几个过程:  数据采集 ...
  • 2020版中国开放数据(Open Data)及政府数据开放平台汇总 北京市 北京市政务数据资源网 http://www.bjdata.gov.cn/jkfb/index.htm 56家单位、1147类数据集、7653万余条数据记录 上海市 上海市政府数据服务网 ...
  • 数据可视化分析平台

    千次阅读 2020-08-27 17:18:10
    DataGear是一款数据可视化分析平台,使用Java语言开发,采用浏览器/服务器架构,支持多种数据库, 主要功能包括数据管理、SQL工作台、数据导入/导出、数据集管理、图表管理、看板管理等。 DataGear 1.11.1 已发布,...
  • Python数据分析实战-Pandas

    千人学习 2019-12-02 10:54:20
    Pandas包是基于Python平台数据管理利器,已经成为了Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,掌握其使用方法,是使用Python进行数据分析和数据挖掘的必备条件。  本课程通过讲解Pandas基础...
  • 摘要:本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景,内容分为以下四部分:一、业务场景...
  • 现在还有哪些数据标注平台价格优惠质量好 最近工作需要联系了几家数据标注平台,我把经历说下,你们自己评比。 京东众智 京东众智反馈速度比较快,在官网上提交需求后下午就有客户经理给我打电话,2天就完成标注工具...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,797,833
精华内容 719,133
关键字:

数据平台