精华内容
下载资源
问答
  • 大数据架构

    2019-02-28 14:58:28
    大数据架构
  • 大数据架构-源码

    2021-02-25 07:51:55
    大数据架构
  • 大数据架构

    2018-08-07 14:07:02
    大数据架构图 最新的大数据架构图 实用 最新的大数据架构
  • 大数据架构师指南

    2018-02-28 16:58:18
    大数据架构师指南 大数据架构师指南 大数据架构师指南
  • 大数据架构资料

    2019-02-27 17:15:59
    该压缩包中包含两本大数据架构的书,大数据架构商业之路和架构详解,同时包含了京东技术开放日的架构PDF
  • 大数据架构设计

    2019-08-14 10:24:15
    大数据架构设计,包括云计算与大数据的关系;各行业大数据计算架构案例等
  • 第2章 运营商大数据架构 2.1 架构驱动的因素 2.2 大数据平台架构 2.3 平台发展趋势
    第2章 运营商大数据架构 
    	2.1 架构驱动的因素 
    		运营商面临着被管道化,营收下滑,大数据项目承担企业战略转型,数据变现的使命。
    		互联网企业的大数据往往是承担业务创新,未来探索的一种驱动因素,所以对于架构的扩展性,灵活性等方面的追求优先级在成本之上。
    
    	2.2 大数据平台架构 
    		大数据平台,最上层是应用。大数据平台最后还是要解决实际的业务问题,在运营商领域分别解决SQM(运维质量管理),CSE(客户体验提升),
    	MSS(市场运维支撑),DMP(数据管理平台)等问题。
    		第二层是各个组件/技术支撑,包括数据从产生获取,处理(实时,批处理),分析(交互式查询,机器学习与数据挖掘)到最后的展现。
    		第三次,为了支撑数据的存储处理,需要统一的资源管理及分配。
    		第四层,上层框架和处理都构建在存储的基础上,所以存储是基础中的基础。
    		第五层,大数据部署形态有云化部署,物理机部署等多种部署方式。
    
    	2.3 平台发展趋势
    		1.Cloud First : 云优先。
    		2.Stream Default : 流优先。数据源端更多的是流数据,要求实时分析,进行秒级或者分钟级计算。
    		3.Pervasive Analytics : 普适分析。
    		4.Self Service : 自服务 

     

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • 中兴大数据架构师指南;中兴大数据架构师指南;中兴大数据架构师指南
  • 大数据架构详解

    2018-03-31 10:36:47
    大数据架构详解.rar
  • 大数据问题的分析和解决通常很复杂。大数据的量、速度和种类使得提取信息和获得业务洞察变得很困难。...这个“大数据架构和模式”系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构
  • Pipeline大数据架构

    千次阅读 2019-04-03 13:18:28
    1.Pipeline大数据架构 (create by 王小雷) Pipeline大数据架构,面向大数据仓库和大数据处理平台。是基于lambda的大数据架构的变种,增加了企业级服务,而并非只是大数据组件的对切,是一种更落地的方案。 如同...

    1.Pipeline大数据架构

    pipeline大数据架构
    (create by 王小雷)

    Pipeline大数据架构,面向大数据仓库和大数据处理平台。是基于lambda的大数据架构的变种,增加了企业级服务,而并非只是大数据组件的对切,是一种更落地的方案。
    如同骨架之间使用软骨连接起来一样,是一个完整可执行的架构设计。形成Pipeline架构。

    Pipeline大数据架构由一个源、四个层(1+4)组成。

    2.数据源

    数据源是泛指需要大数据平台处理的所有数据源。大多时候是企业的业务系统产生的,这部分一般都是在大数据平台之外,而且关系型数据为主。

    2.1.关系型数据源

    如MySQL、PostgreSQL中的业务数据,这部分是绝多大企业要处理的数据。

    2.2.非关系型数据源

    如MongoDB数据、日志数据等。

    3.基础调度层

    大数据处理是集群执行的。那么就需要大数据应用的任务调度、资源调度。

    其中有很多大数据组件具有调度能力。称为基础调度层。

    3.1.Zookeeper

    3.2.YARN

    3.3.Azkaban

    4.大数据平台管控层

    管控层在基础调度层之上,上文是数仓/数据处理层,下文是基础调度层。旨在让集群资源、任务调度机制更加定制、自动、智能化。

    比如一个很大的数据处理,需要两种通道Hive ETL或者Spark SQL都可以处理,但是根据文件大小和结构,百分之三十用Hive ETL,70%用Spark SQL处理。
    让处理时间和资源占用达到整体较优。

    4.1.智能调度决策流服务

    数据处理是多种通道的,如Spark处理、Flink处理,但是根据数据的特点和业务要求,需要通过不同策略调用不同处理方式来处理数据。

    4.2.任务状态监控服务

    整个Pipeline任务执行时间、状态、结果都是需要监控服务来记录和报警的。

    4.3.任务重试/数据回溯服务

    某个单元数据处理出现问题、未通过数据校验等需要这部分数据重新计算或者回溯原始数据。

    4.4.管控通信服务

    集群管控信息收集后发送给大数据对应模块负责人。邮件为主,紧急可以短信。

    4.5.并行调度服务

    为了充分利用资源和任务特性,有些数据处理任务需要并行调度。

    5.数据仓库/数据处理(离线处理/实时处理)层

    Pipeline大数据架构核心层,数仓、数据湖泊、实时处理、批处理,也是lambda核心的变种,同样增了企业级可行性服务。

    如字典服务,规则生成引擎等。

    5.1.pipeline数据摄取/缓存

    大数据系统外/内的待处理数据或者输出数据的大通道,一切数据的在大数据平台的进出由该模块负责。

    如果细胞的细胞壁。也如同屠夫的钩子(按Q)。

    5.1.1.Flume数据缓存服务

    大多时候是接入Log日志,如数据库的write-ahead logging (WAL)、系统埋点日志数据等等,无侵入接入数据。

    5.1.2.Kafka数据缓存服务

    通常是来对接Flume,用Topic等连接,并分发到计算引擎或者沉淀到存储系统,或者暂时缓存数据。

    5.1.3.引擎数据直连服务

    引擎直连服务可能对业务系统有害,因为是侵入式直连,数据的抽取或者写入会对业务系统有很大影响。

    但是,敏捷开发,或者刚开始建立大数据平台,这种方式来的最快。不需要更多大数据链路,抽过来数据直接处理。这先落地再优化的方法,何乐而不为呢(减少加班吧)。

    5.2.Pipeline数据处理 core

    5.2.1.在线处理引擎

    Flink

    5.2.2.离线处理引擎

    Spark SQL

    5.2.3.字典服务

    业务系统有多个产品,多个库,它们根据业务不同,库、表、字段各不相同,需要大数据这边有一个字典服务,记录、汇总、跟踪业务系统数据字典。

    为SQL自动拆箱/装箱引擎、数据层设计/规则生成引擎提供原料。

    5.2.4.SQL自动化拆箱/装箱引擎

    配合计算引擎,达到批量计算,如有1万张表需要抽取到大数据仓库,用Spark SQL实现,其中包括数据的特殊更改、全量、增量、流水、拉链等操作。

    5.2.5.同步记录服务

    多业务多库多表同步到数仓或者处理时候,增量同步记录服务。

    5.2.6.数据层设计/规则生成引擎

    业务分析师将业务数据与大数据开发团队对接。

    将业务数据规则设计为大数据数据,偏向业务对接、分析。

    5.2.7.Hive数据ETL服务

    作为数据处理的工具,可做简单的ETL工作。

    5.3.Pipeline数据存储

    数仓存储根据层次、业务的不同可存储不同。原始数据,非规则化数据,超大文件可存储在HDFS上,冷数据做压缩处理。

    HBase直接对接引擎计算后的数据沉淀。

    Hive可存储不同层次的数据,但是更多时候是做数仓的管理工具,如外部数据HDFS、Hbase等外部表。

    5.3.1.HDFS

    5.3.1.HBase

    5.3.1.MySQL、Redis

    5.3.1.Hive

    5.4.Pipeline数据治理

    数据治理是在数据接入到大数据平台时做规范,如日期规范、脱敏、字段类型映射等等。

    5.4.1.数据规范服务

    5.4.2.人工检测

    5.4.3.数据校验服务

    6.对外业务分析层

    6.1.HUE提供SQL查询功能,供业务分析部分使用

    1HiveQL SparkSQL Impala

    6.2.1.在线业务分析

    6.2.1.组成 Restful/web服务


    扫码关注

    在这里插入图片描述

    展开全文
  • 大数据架构商业之路

    2019-06-26 19:05:09
    大数据架构商业之路-从业务需求到技术方案,大数据架构、大数据思想介绍。
  • 大数据 架构

    千次阅读 2013-12-09 15:18:01
    大数据的4V。 Volume,variety, value, velocity. 行为数据,UGC数据,非结构化数据。数据间关系复杂(社交网络、电商、微博)。 PB级别几十个PB数据,亿级的数据接口请求,千万级的PV等。 产品组件架构


     数据特点

    大数据的4V。 Volume,variety, value, velocity.

    行为数据,UGC数据,非结构化数据。数据间关系复杂(社交网络、电商、微博)。 PB级别几十个PB数据,亿级的数据接口请求,千万级的PV等。

    产品组件架构



    百度云存储之架构.

    http://max.book118.com/html/2012/0406/1508058.shtm







    百度数据中心架构

    http://pan.baidu.com/share/link?shareid=2177079275&uk=1210087577&fid=619501279



    展开全文
  • 什么是大数据架构师: 围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用...

    阿里前大数据架构师:如何快速的成长为一名优秀大数据架构师

     

    什么是大数据架构师: 围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发,现在向大家推荐一个大数据资源共享群:593--188--212,里面会有学习路线,相关的学习资料,算法学习资料,免费的视频直播课等等,现在给大家分享成为大数据架构师必须要掌握以下四点

    1、为什么需要构建数据架构

    数据标准不一致(列名相同数据类型不同、列明相同数据类型相同长度不一、列名没有统一标准识别困难、列名定义不统一类型不一致长度不相同、中文名称相同英文缩写不同或英文缩写相同中文名称不同)

    数据标准化管理提些(构建动态单词库,标准遵循度自动检测,标准自动应用,标准管理流程化,构建知识库基础内容,为大数据应用提供统一标准)

    标准化管理实施成果,用语校验机制(申请、校验、标准知识库、检验结果报告)

    标准对象的自动应用(基于底层知识库将逻辑数据模型转换成相应的物理模型,自动转化)

    数据模型管理混乱(校验较差、逻辑结构不一样、反复增加相同表结构、表真正字段没有进行注释)——设计、校验、扩展

    数据模型骨骼

    数据模型优化方式(数据库参数优化10%、执行计划优化(hint)30%、索引和SQL优化50%、数据模型的优化80%);

    SQL语句编写水平不高导致出现严重性能问题(对开发人员执行计划不熟悉);

    上线之前的审计体系(与上线之前测试工作并行进行,抓去SQL及执行计划)

    相对复杂的数据处理能力欠缺

    数据质量查需要执行数据质量管理(质量标准及诊断对象定义、剖析、BR定义、数据质量诊断、数据质量改进);

    阿里前大数据架构师:如何快速的成长为一名优秀大数据架构师

     

    2、如何构架数据架构

    开发需求、应用架构、运维架构、技术规划-》数据架构、业务架构、技术架构、应用架构;

    数据架构管理对象、数据架构管理流程、数据架构管理组织、管理系统(数据质量管理系统、配置管理系统);

    数据架构各个角色及人员

    数据架构部门的角色及工作(数据架构(构建数据架构、制定管理体系、标准化)、数据模型(概念、物理、逻辑模型设计、培训)、程序开发(开发技术支持、形状管理、编写核心SQL)、数据迁移(迁移技术支持)、测试及优化(TUNING、设计最优索引、提出问题解决方案))

    阿里前大数据架构师:如何快速的成长为一名优秀大数据架构师

     

    3、数据架构管理体系

    规范、政策、管理、标准管理、结构管理、审核及管理、企业信息系统;

    人员培养、组织形成、工具采购、管理认同(上层关注度);

    来自开发(设计争执)、运维(技术反对)、领导方面阻力(短期难以见成效);

    数据架构是企业架构中的一个重要组成部分(开发、应用、技术、数据);

    内部工作流程(需求登录、适当与需求进行技术讲解、适当了解模型、进行数据需求进行数据模型进行重新设计及变更、数据架构师进行模型审计与审批、自动生成DDL(DBA)、基于业务规则校验数据质量影响、数据错误分析及清洗、相关程序分析):人+规则+技术;

    阿里前大数据架构师:如何快速的成长为一名优秀大数据架构师

     

    4、数据架构师成长

    认知(定义、从事工作、能力、位置与职业生涯);

    学习(途径、培训及书籍、经验学习、相关活动);

    实战(理论落地、扩大影响里、星星之火),可从模型审计及SQL优化着手;

    成熟(稳定数据架构在企业系统设计、开发、运维地位,形成四足鼎立);

    学习技术(企业架构、数据质量管理、数据需求分析、数据标准化、数据建模、数据库设计及应用)

    转载于:https://my.oschina.net/u/3832924/blog/1827837

    展开全文
  • 实时数据仓库大数据架构

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 20,751
精华内容 8,300
关键字:

大数据架构