精华内容
下载资源
问答
  • 企业大数据平台架构

    千次阅读 2017-08-02 17:30:41
    什么是大数据Hadoop介绍-HDFS、MR、Hbase大数据平台应用举例-腾讯公司的大数据平台架构 “就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。 ...

    目录:

    • 什么是大数据
    • Hadoop介绍-HDFS、MR、Hbase
    • 大数据平台应用举例-腾讯
    • 公司的大数据平台架构

    “就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。

    大数据的4V特征-来源

    大数据

    公司的“大数据”

    随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:

    1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;

    2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;

    ……

    三国里的“大数据”

    “草船借箭”和大数据有什么关系呢?对天象的观察是基于一种对风、云、温度、湿度、光照和所处节气的综合分析这些数据来源于多元化的“非结构”类型,并且数据量较大,只不过这些数据输入到的不是电脑,而是人脑并最终通过计算分析得出结论。

    草船借箭

    Google分布式计算的三驾马车

    • Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。
    • Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。
    • BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。

    Hadoop体系架构

    Hadoop

     

    hadoop核心设计

    Hadoop

     

    HDFS介绍-文件读流程

    Hadoop

     

    Client向NameNode发起文件读取的请求。
    NameNode返回文件存储的DataNode的信息。
    Client读取文件信息。
    HDFS介绍-文件写流程
    HDFS
    Client向NameNode发起文件写入的请求。
    NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
    Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

    MapReduce——映射、化简编程模型

    输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果

    HDFS

     

    Hbase——分布式数据存储系统

    HDFS

     

    Client:使用hbase RPC机制与HMaster和HRegionServer进行通信

    Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

    HMaster: 管理用户对表的增删改查操作

    HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据

    HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table

    HStore:HBase存储的核心。由MemStore和StoreFile组成。

    HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件

    还有哪些NoSQL产品?

    NoSQL

     

    为什么要使用NoSQL?

    一个高并发网站的DB进化史

    NoSQL

    关系模型>聚合数据模型的转换-基本变换

    NoSQL

     

    关系模型>聚合数据模型的转换-内嵌变换

    NoSQL

     

    关系模型>聚合数据模型的转换-分割变换

    NoSQL

     

    关系模型>聚合数据模型的转换-内联变换

     

    36大数据

    Hadoop2.0

    MapReduce:
    JobTracker:协调作业的运行。
    TaskTracker:运行作业划分后的任务。

    Hadoop2.0
    大数据的技术领域
    Hadoop2.0
    腾讯大数据现状(资料来自2014.4.11 腾讯分享日大会)
    Hadoop2.0
     腾讯大数据
    腾讯大数据平台产品架构
    Hadoop2.0
    腾讯大数据平台与业务平台的关系
    Hadoop2.0
    公司数据处理平台的基础架构
    大数据
    公司大数据平台架构图
    大数据
    应用一数据分析
    大数据
    应用二视频存储
     大数据
    应用三离线日志分析
    大数据
    应用五在线数据分析
    参考资料:京东基于Samza的流式计算实践
    大数据
    展开全文
  • 大数据平台架构

    2019-12-23 09:48:15
    大数据平台架构基于HBase和Spark构建企业级数据处理平台1.1 一站式数据处理平台架构1.2 典型业务场景1.2.1 爬虫+搜索引擎1.2.2 大数据风控系统1.2.3 构建数据仓库(推荐、风控) 基于HBase和Spark构建企业级数据处理...

    基于HBase和Spark构建企业级数据处理平台

    [基于HBase和Spark构建企业级数据处理平台]:阿里云数据库 李伟(沐远) PPT 演讲稿

    1.1 一站式数据处理平台架构

    在这里插入图片描述

    1.2 典型业务场景

    1.2.1 爬虫+搜索引擎

    在这里插入图片描述

    1.2.2 大数据风控系统

    在这里插入图片描述

    1.2.3 构建数据仓库(推荐、风控)

    在这里插入图片描述

    展开全文
  • 企业大数据平台仓库架构建设思路
  • 本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,...

    本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。分享中,李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库。

    bd0a819fe557b3f09120a684548a04e0.png

    总体思路

    0da98465dc5b3c295b56c5b1cd4dea30.png

    随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征,该如何构建数据仓库呢?我认为应该从稳定、可信、丰富、透明四个关键词入手。其中,稳定要求数据的产出稳定、有保障;可信意味着数据的质量要足够高;丰富是指数据涵盖的业务面要足够丰富;透明要求数据构成流程体系是透明,让用户放心使用。

    960452212cc48953cc5e909158f891dc.png

    我们之所以选择基于大数据平台构建数据仓库,是由大数据平台丰富的特征决定的:

    • 强大的计算和存储能力,使得更扁平化的数据流程设计成为可能,简化计算过程;
    • 多样的编程接口和框架,丰富了数据加工的手段;
    • 丰富的数据采集通道,能够实现非结构化数据和半结构化数据的采集;
    • 各种安全和管理措施,保障了平台的可用性。

    4eabb3441ef5ed87ab557c665e4a45c6.png

    仓库架构设计原则包括四点:第一自下而上结合自上而下的方式,保障数据搜集的全面性;第二高容错性,随着系统耦合度的增加,任何一个系统出现问题都会对数仓服务产生影响,因此在数仓构建时,高容错性是必不可少的因素;第三数据质量监控需要贯穿整个数据流程,毫不夸张地说,数据质量监控消耗的资源可以等同于数据仓库构建的资源;第四无需担心数据冗余,充分利用存储换易用。

    模型设计

    构建数仓的首要步骤就是进行模型设计。

    维度莫建模或实体关系建模

    7964ed184fe8c4b2a4c626314109c3db.png

    常见的模型设计思路包括维度建模和实体关系建模。维度建模实施简单,便于实时数据分析,适用于业务分析报表和BI;实体关系建模结构较复杂,但它便于主体数据打通,适合复杂数据内容的深度挖掘。

    每个企业在构建自己数仓时,应该根据业务形态和需求场景选择合适的建模方式。对于应用复杂性企业,可以采用多种建模结合的方式,例如在基础层采用维度建模的方式,让维度更加清晰;中间层采用实体关系建模方式,使得中间层更容易被上层应用使用。

    ** 星型模型和雪花模型 **

    8b2945be15c1c7f4d68cbbf1180a76d2.png

    除了建模方式之外,在星型模型和雪花模型的选择上也有可能让使用者左右为难。事实上,两种模型是并存的,星型是雪花模型的一种。理论上真实数据的模型都是雪花模型;实际数据仓库中两种模型是并存的。

    由于星型模型相对结构简单,我们可以在数据中间层利用数据冗余将雪花模型转换成星型模型,从而有利于数据应用和减少计算资源消耗。

    ** 数据分层 **

    634d90ff7bc5f0536d3f031ad145745d.png

    在确定建模思路和模型类型之后,下一步的工作是数据分层。数据分层可以使得数据构建体系更加清晰,便于数据使用者快速对数据进行定位;同时数据分层也可以简化数据加工处理流程,降低计算复杂度。

    我们常用的数据仓库的数据分层通常分为集市层、中间层、基础数据层上下三层结构。由传统的多层结构减少到上下三层结构的目的是为了压缩整体数据处理流程的长度,同时扁平化的数据处理流程有助于数据质量控制和数据运维。

    在上下三层的结构的右侧,我们增加了流式数据,将其添加成数据体系的一部分。这是因为当前的数据应用方向会越来越关注数据的时效性,越实时的数据价值度越高。

    但是,由于流式数据集的采集、加工和管理的成本较高,一般都会按照需求驱动的方式建设;此外,考虑到成本因素,流式数据体系的结构更加扁平化,通常不会设计中间层。

    下面来具体看下每一层的具体作用。

    数据基础层

    8f63bbea27f88d377f362aa3f1e04d68.png

    数据基础层主要完成的工作包括以下几点:

    • 数据采集:把不同数据源的数据统一采集到一个平台上;
    • 数据清洗,清洗不符合质量要求的数据,避免脏数据参与后续数据计算;
    • 数据归类,建立数据目录,在基础层一般按照来源系统和业务域进行分类;
    • 数据结构化,对于半结构化和非结构化的数据,进行结构化;
    • 数据规范化,包括规范维度标识、统一计量单位等规范化操作。

    数据中间层

    c860a1b20cf3f3ad96122baf6e340a38.png

    数据中间层最为重要的目标就是把同一实体不同来源的数据打通起来,这是因为当前业务形态下,同一实体的数据可能分散在不同的系统和来源,且这些数据对同一实体的标识符可能不同。此外,数据中间层还可以从行为中抽象关系。从行为中抽象出来的基础关系,会是未来上层应用一个很重要的数据依赖。例如抽象出的兴趣、偏好、习惯等关系数据是推荐、个性化的基础生产资料。

    在中间层,为了保证主题的完整性或提高数据的易用性,经常会进行适当的数据冗余。比如某一实事数据和两个主题相关但自身又没有成为独立主题,则会放在两个主题库中;为了提高单数据表的复用性和减少计算关联,通常会在事实表中冗余部分维度信息。

    ** 数据集市层 **

    be8905da38e2bd6df255e695d82fb917.png

    数据集市层是上下三层架构的最上层,通常是由需求场景驱动建设的,并且各集市间垂直构造。在数据集市层,我们可以深度挖掘数据价值。值得注意的是,数据集市层需要能够快速试错。

    数据架构

    5d5b0e1d0d1c29c4c3c97eca3e435d2a.png

    数据架构包括数据整合、数据体系、数据服务三部分。其中,数据整合又可以分为结构化、半结构化、非结构化三类。

    数据整合

    4da00edb9e2c338b2ebab80b8d3a6c0a.png

    结构化数据采集又可细分为全量采集、增量采集、实时采集三类。三种采集方式的各自特点和适应场合如上图所示,其中全量采集的方式最为简单;实时采集的采集质量最难控制。

    b67021f776c950b216d0588871b70fba.png

    在传统的架构中,日志的结构化处理是放在数仓体系之外的。在大数据平台仓库架构中,日志在采集到平台之前不做结构化处理;在大数据平台上按行符分割每条日志,整条日志存储在一个数据表字段;后续,通过UDF或MR计算框架实现日志结构化。

    在我们看来,日志结构越规范,解析成本越低。在日志结构化的过程中,并不一定需要完全平铺数据内容,只需结构化出重要常用字段;同时,为了保障扩展性,我们可以利用数据冗余保存原始符合字段(如useragent字段)。

    6c91d27f56cc48d1acf15735c40d8cbd.png

    非结构化的数据需要结构化才能使用。非结构化数据特征提取包括语音转文本、图片识别、自然语言处理、图片达标、视频识别等方式。尽管目前数仓架构体系中并不包含非结构化数据特征提取操作,但在未来,这将成为可能。

    数据服务化

    d0a1992db139a8576d240b1db21ee962.png

    数据服务化包括统计服务、分析服务和标签服务:

    • 统计服务主要是偏传统的报表服务,利用大数据平台将数据加工后的结果放入关系型数据库中,供前端的报表系统或业务系统查询;
    • 分析服务用来提供明细的事实数据,利用大数据平台的实时计算能力,允许操作人员自主灵活的进行各种维度的交叉组合查询。分析服务的能力类似于传统cube提供的内容,但是在大数据平台下不需要预先建好cube,更灵活、更节省成本;
    • 标签服务,大数据的应用场景下,经常会对主体进行特征刻画,比如客户的消费能力、兴趣习惯、物理特征等等,这些数据通过打标签转换成KV的数据服务,用于前端应用查询。

    架构设计中一些实用的点

    879c3b72ab95a54097492bb67b50d74c.png

    在架构设计中有一些实用的点,这里给大家分享一下:

    第一,通过巧用虚拟节点实现多系统数据源同步,实现跨系统间的数据传输,实现多应用间数据交互。通过巧用虚拟节点减少运维人员在实际出现问题时的运维成本。

    第二,采用强制分区,在所有的表都上都加上时间分区。通过分区,保证每个任务都能够独立重跑,而不产生数据质量问题,降低了数据修复成本;此外通过分区裁剪,还可以降低计算成本。

    第三,应用计算框架完成日志结构化、同类数据计算过程等操作,减轻了开发人员的负担,同时更容易维护。

    第四,优化关键路径。优化关键路径中耗时最长的任务是最有效的保障数据产出时间的手段。

    05cbadd0612935260bbb5524183b21e8.png

    数据治理

    e39b9d0c3dac355d66fc9a2edcfb29fc.png

    数据治理不是独立于系统之外的保障,它应该贯穿在数仓架构内部和数据处理的流程之中。

    数据质量

    d4a0ccbc6215cbafd56a286154748cd5.png

    保障数据质量,可以从事前、事中、事后入手。事前,我们可以通过制定每份数据的数据质量监控规则,越重要的数据对应的监控规则应该越多;事中,通过监控和影响数据生产过程,对不符合质量要求的数据进行干预,使其不影响下流数据的质量;事后,通过对数据质量情况进行分析和打分,将一些不足和改进反馈数据监控体系,推动整体的数据质量提升。

    数据生命周期管理

    6b41c353194d4c93e12c04b0a8215154.png

    出于成本等因素的考虑,在大数据平台上我们依然需要对数据生命周期进行管理。根据使用频率将数据分为冰、冷、温、热四类。一个合理的数据生命周期管理要保证温热数据占整个数据体系大部分;同时为了保障数据资产的完整性,对于重要的基础数据会长久保留。

    对于数据中间计算过程数据,在保障满足绝大部分应用访问历史数据需要的前提下,缩短数据保留周期,有助于降低存储成本;最后一点值得注意的是,冷备已经成为历史,在大数据平台下不需要单独的冷备设备。

    欢迎关注,《大数据成神之路》系列文章

    欢迎关注,《大数据成神之路》系列文章

    欢迎关注,《大数据成神之路》系列文章

    展开全文
  • 大数据越来越受到重视的今天,企业级数据平台搭建,也成为更加普遍的需求。而要搭建起符合自身需求以及提供稳定支持的数据平台系统,基础架构的选型是非常重要的。今天我们就来聊聊大数据基础架构选型。在企业数据...

    大数据越来越受到重视的今天,企业级数据平台搭建,也成为更加普遍的需求。而要搭建起符合自身需求以及提供稳定支持的数据平台系统,基础架构的选型是非常重要的。今天我们就来聊聊大数据基础架构选型。

    c8f375a4879d69786ec0b96e58e3890c.png

    在企业数据团队当中,数据平台基础架构选型,通常由资深的开发工程师或者架构师来完成。这就要求相关人员,结合具体场景和需求,综合考虑成本、投入等因素,选择合适的技术架构。

    大数据基础架构,目前行业当中主流的选择,基本都集中在Hadoop生态下。一方面是因为Hadoop技术的成熟稳定,另一方面也有历史原因,因为很多企业早期的框架,都是基于Hadoop的。

    主流大数据基础架构

    传统数据架构

    传统数据架构,在进入大数据时代之后,因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造。通常采取的是保留ETL的动作,将数据经过ETL动作进入数据存储。这类数据架构,所能满足的数据分析需求依旧以BI场景为主。

    流式架构

    在传统大数据架构的基础上,流式架构数据全程以流的形式处理,在数据接入端将ETL替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。存储部分在外围系统以窗口的形式进行存储。适用于预警、监控、对数据有时效性有更高要求的场景。

    97839ec6546badd8c93d53f557ae8c5e.png

    Lambda架构

    Lambda架构算大数据系统里面举足轻重的架构,数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。适用于同时存在实时和离线需求的需求场景。

    Kappa架构

    Kappa架构在Lambda的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

    30ed85d603e0bbb245a2663b952dc0df.png

    关于大数据平台搭建,大数据基础架构选型,以上就是今天的分享内容了。大数据继续发展,企业对于数据平台搭建的需求,将越来越普遍,不管是基于原有的系统平台进行改造,还是搭建全新的平台架构,都需要更多专业人才的支持。

    展开全文
  • 阿里资料企业大数据平台仓库架构建设思路
  • 点击上方蓝色字体,选择“设为星标”回复”资源“获取更多惊喜本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大,数据也在...
  • 1、金融企业大数据平台架构设计的关键点有哪些?架构设计的关键首要是要满足业务需求,提炼业务需求的非功能特性,提出针对性的架构设计方案。作业自主研发能力有限的企业,在大数据系统建设中首要是合理的选择技术...
  • 今天我们就从大数据平台开发的角度,来对大数据系统架构模块做一个简单的介绍。 在实际的业务场景当中,每个公司的需求是不一样的,因此大数据平台开发需要选择适合自己的技术框架,在实际工作当中,这部分工作...
  • 本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,...
  • 如果缺乏有效的数据整体架构设计或者部分能力缺失,会导致业务层难以直接利用大数据大数据大数据和业务产生了巨大的鸿沟,这道鸿沟的出现导致企业在使用大数据的过程中出现数据不可知、需求难实现、数据难共享等一...
  • 趣店大数据平台架构趣店大数据平台作为集团数据业务的技术支撑,为集团提供从采集、建模、存储、分析到智能应用的全流程数据驱动解决方案,最终以数据服务对接到业务系统或者数据产品驱动业务决策和产品智能。...
  • 主从架构是分布式常见的一种集群模式,即通过一个master节点就能管理其他的slave节点。那么就会遇到第二个问题,master节点如何感知slave节点的存在,比如现在有多少个slave链接到了master,他们的状态是健康的还是...
  • 企业大数据平台下数仓架构.pdf
  • 大数据越来越受到重视的今天,企业级数据平台搭建,也成为更加普遍的需求。而要搭建起符合自身需求以及提供稳定支持的数据平台系统,基础架构的选型是非常重要的。今天我们就来聊聊大数据基础架构选型。 在企业...
  • 如果缺乏有效的数据整体架构设计或者部分能力缺失,会导致业务层难以直接利用大数据大数据大数据和业务产生了巨大的鸿沟,这道鸿沟的出现导致企业在使用大数据的过程中出现数据不可知、需求难实现、数据难共享等一...
  • 当前BAT基本公开了其大数据平台架构,从网上也能查询到一些资料,关于大数据平台的各类技术介绍也不少,但在那个机制、那个环境、那个人才、那个薪酬体系下,对于传统企业,可借鉴的东西也是有限的。 技术最终为业务...
  • 本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数...
  • 常见的大数据平台架构设计思路

    千次阅读 2020-02-16 21:17:15
    近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据资产。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,002
精华内容 400
关键字:

企业大数据平台架构