大数据平台_大数据平台搭建 - CSDN
精华内容
参与话题
  • 深入浅出解析大数据平台架构

    千次阅读 2018-02-13 20:21:02
    目录:什么是大数据Hadoop介绍-HDFS、MR、Hbase大数据平台应用举例-腾讯公司的大数据平台架构“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”...

    目录:

    • 什么是大数据
    • Hadoop介绍-HDFS、MR、Hbase
    • 大数据平台应用举例-腾讯
    • 公司的大数据平台架构

    “就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。

    大数据的4V特征-来源

    深入浅出解析大数据平台架构

    公司的“大数据”

    随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:

    1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;

    2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;

    ……

    三国里的“大数据”

    “草船借箭”和大数据有什么关系呢?对天象的观察是基于一种对风、云、温度、湿度、光照和所处节气的综合分析这些数据来源于多元化的“非结构”类型,并且数据量较大,只不过这些数据输入到的不是电脑,而是人脑并最终通过计算分析得出结论。

    深入浅出解析大数据平台架构

    Google分布式计算的三驾马车

    • Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。
    • Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。
    • BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。

    Hadoop体系架构

    深入浅出解析大数据平台架构

     

    Hadoop核心设计

    深入浅出解析大数据平台架构

     

    HDFS介绍-文件读流程

    深入浅出解析大数据平台架构

     

    Client向NameNode发起文件读取的请求。
    NameNode返回文件存储的DataNode的信息。
    Client读取文件信息。
    HDFS介绍-文件写流程
    深入浅出解析大数据平台架构
    Client向NameNode发起文件写入的请求。
    NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
    Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

    MapReduce——映射、化简编程模型

    输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果

    深入浅出解析大数据平台架构

     

    Hbase——分布式数据存储系统

    深入浅出解析大数据平台架构

     

    Client:使用HBase RPC机制与HMaster和HRegionServer进行通信

    Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

    HMaster: 管理用户对表的增删改查操作

    HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据

    HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table

    HStore:HBase存储的核心。由MemStore和StoreFile组成。

    HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件

    还有哪些NoSQL产品?

    深入浅出解析大数据平台架构

     

    为什么要使用NoSQL?

    一个高并发网站的DB进化史

    深入浅出解析大数据平台架构

    关系模型>聚合数据模型的转换-基本变换

    深入浅出解析大数据平台架构

     

    关系模型>聚合数据模型的转换-内嵌变换

    深入浅出解析大数据平台架构

     

    关系模型>聚合数据模型的转换-分割变换

    深入浅出解析大数据平台架构

     

    关系模型>聚合数据模型的转换-内联变换

     

    深入浅出解析大数据平台架构

    Hadoop2.0

    MapReduce:
    JobTracker:协调作业的运行。
    TaskTracker:运行作业划分后的任务。

    深入浅出解析大数据平台架构
    大数据的技术领域
    深入浅出解析大数据平台架构
    腾讯大数据现状(资料来自2014.4.11 腾讯分享日大会)
    深入浅出解析大数据平台架构
      深入浅出解析大数据平台架构
    腾讯大数据平台产品架构
    深入浅出解析大数据平台架构
    腾讯大数据平台与业务平台的关系
    深入浅出解析大数据平台架构
    公司数据处理平台的基础架构
    深入浅出解析大数据平台架构
    公司大数据平台架构图
    深入浅出解析大数据平台架构
    应用一数据分析
    深入浅出解析大数据平台架构
    应用二视频存储
      深入浅出解析大数据平台架构
    应用三离线日志分析
    深入浅出解析大数据平台架构
    应用五在线数据分析
    参考资料:京东基于Samza的流式计算实践
    深入浅出解析大数据平台架构
    展开全文
  • 大数据平台

    万次阅读 2018-01-26 11:04:12
    大数据平台选型有三种选择: 1、使用云平台,优点是建设周期短、运维成本低,缺点费用贵、数据安全性; 2、使用商业化的大数据平台,优点搭建部署方便、稳定性好,缺点是成本高、不够灵活; 3、自己造轮子,优点...

    选型

    大数据平台选型有三种选择:

    1、使用云平台,优点是建设周期短、运维成本低,缺点费用贵、数据安全性;

    2、使用商业化的大数据平台,优点搭建部署方便、稳定性好,缺点是成本高、不够灵活;

    3、自己造轮子,优点就是根据需要定制部署,缺点周期长、成本高、坑特别多。

    公司高层视数据如命,使用公有云平台是不可能的,大数据团队刚建成、预算不足,只能走向自主建设这条艰辛路。经历了大数据平台从有到无,功能越来越完善,稳定性和性能逐步提升,支持的业务越来越多。体会到自主建设一个生产级别的大数据平台,要踩了很多坑。所以记录一下大数据平台的技术演进历程,一来用于总结经验,二来也给其他正准备自己建设大数据平台的同学提供参考。

    总体架构

     

    • 数据源,支持多种数据源,可以实现对公司的各个业务线的数据进行接入整合;
    • 接入层,业务mysql数据库定时同步和基于canel的实时同步结合,日志数据实时接入,互联网海量数据实时爬取清洗;
    • 存储层,hdfs分布式文件系统实现海量数据存储,hbase提供数据实时读写,kafka消息队列实现数据缓存;
    • 计算层,离线计算引擎用于数据挖掘和机器学习模型训练,实时计算引擎实现日志的实时分析和处理,深度学习引擎用于人工智能算法的运行;
    • 分析层,实时SQL用于探索性分析和多维分析,机器学习算法用于商机的分类和推荐,NLP分析实现自然语言处理,深度学习算法用于图片水印和违禁图片识别;
    • 数据服务层,对外提供数据服务;
    • 数据应用层,个性推荐为PC端和单品通app端提供推荐服务;用户画像可以抽象出标签化的用户模型是提升会员质量的基础;用户行为分析对用户访问网站的规律进行分析可用于智能推荐;统计报表对数据进行挖掘分析,提供报表作为决策的依据,实现商业智能;运营支持对运营部门的需求提供大数据支持;数据大屏方便用户直观的了解运营情况,包括实时交易图、统计大屏和基地大屏。

    数据采集

    需要采集的数据有三类:
    • 业务数据,主要存储是关系型数据;
    • 日志类,主要存储是文件;
    • 爬虫抓取类,主要存储是文件。

    业务数据

    Sqoop阶段

    公司业务数据库使用的mysql,最初业务数据同步使用sqoop定时同步,主要问题有三个:数据同步有延时,同步后的数据有串行、对业务库压力大。所以想找到更好替代方案。

    Kafka Connect阶段

    这个时候confluent 的kafka connect 进入我们的视野,看完官网的介绍和原理,设计理念特别好,支持各种数据源,完全满足我们的需求,经过部署测试,稳定性太差,根本无法用到生产环境。

    Sqoop+canal阶段

    最后又把目光又回到了sqoop上,利用sqoop的job实现增量同步,同时对并行度进行优化基本可以满足要求。对业务数据库压力大的问题并没有解决,考虑专门创建一个mysql备库用于我们同步数据,这时候闪现了一个想法可以考虑直接读取mysql的binlog日志进行同步,先在github上找找有没有开源的轮子,在万能的github上找到了canal。最后的方案就是通过sqoop+canal的方案,sqoop用于第一次全量同步,canal用于增量同步。

    日志数据

    可选的方案有三个:

    flume、logstash、filebeat。最后的选择的是filebeat直接接入kafka,没有使用logstash原因是对服务器压力太大,flume更侧重数据传输。

    爬虫抓取类

    爬虫抓取集群和大数据集群网络环境差,爬取的文件格式复杂,这种情况是flume最擅长的。

    平台管理

    平台建设开始就要考虑的数据资源和计算资源的管理,避免使用混乱,否则后患无穷。

    数据资源管理

    hdfs、hive、hbase启用安全策略,开发了专门的元数据管理平台,对数据进行管理,包括数据所属人,数据的用途。

    计算资源管理

    引用账号和队列,每个产品线对应一个用户组,每个用户对应一个队列,针对队列设置配额。

    性能优化

    硬件环境

    • 系统盘和数据盘分开。避免使用一个磁盘的两个分区作为系统盘和数据盘,这样可以避免数据盘负载太高导致系统变卡。
    •  数据盘不需要做raid,直接使用单个磁盘。使用raid0虽然性能高,但是单个磁盘损坏会导致整个raid磁盘不能使用,使用raid5数据可靠性高,但是性能不高。更重要的是,我们数据的安全性靠的是软件保证。
    • 每台机器的磁盘数和磁盘空间尽可能一样。
    • 系统盘一定要是使用单独的磁盘,最少200G空间以上
    • 使用高转速磁盘,至少1000转以上,避免磁盘成为瓶颈。
    • 集群机器之间至少10Gigabit(万兆)以太网。
    •  内存、CPU、磁盘、带宽和磁盘io要保持一个合理的性价比。例如正常情况下内存越大越好,但是内存大到一定阶段,cpu和带宽就会成为瓶颈,如果加大cpu和带宽,最后磁盘io就有可能是瓶颈。

    操作系统

    • 禁用swap,使用交换分区会严重影响程序的性能。现在的内存已经不是很稀缺了,而且内存和磁盘速度相差太大。
    • 增大操作系统的最大打开文件数。
    • 设置数据盘的noatime属性。
    • 文件系统选择ext4

    部署建议

    hdfs

    Namenode节点不要和datanode节点部署在一起 

    Yarn

    • yarn分配的内存是机器总内存的75%,剩余的内存用于操作系统、系统缓存、程序等使用。
    • nm节点和datanode节点部署到同样的机器上。
    • RM节点选择和namenode节点部署到同一个机器。

    Zookeeper

    • zookeeper节点选择负载比较少的机器部署,不要和nodemanager部署到同一台机器上
    • zookeeper节点数3个
    • zookeeper数据最好存储到单独的磁盘上,不要和数据盘用同一个盘

    spark

    • 计算节点尽快能接近数据节点
    • 配置多个磁盘作为spark的本地目录,最好能和datanode的数据目录用同一个,spark-on-yarn由yarn.nodemanager.local-dirs确定

    kafka

    • kafka最好单独部署一个集群,如果机器资源不够也需要有单独的磁盘
    • kafka尽可能部署到负载比较小的机器上

    其它优化

    shuffle相关参数调优

    hdfs小文件合并

    任务隔离

    大数据集群的规模是随着业务发展逐渐增大,导致集群机器配置不一致,主要是有一批配置低的机器最初用来跑MR任务,一批配置高的机器使用跑spark任务,最好不同的任务能提交到指定的机器运行,所以引入了对NodeManager打标签。将配置低的机器打标签为MR任务,配置高分为spark离线任务和spark Streaming任务。同时对队列也设置相应的标签。


    展开全文
  • 什么是大数据和大数据平台?

    千次阅读 2019-07-16 14:50:48
    大数据”时下一个热门的词语,近几年来,关于大数据的著作和文章铺天盖地,似乎也在共同在传递一个信息:越来越多的行业、人士开始关注并实际探索大数据的应用,我们正在一起描绘着大数据巨大效用的蓝图,但在实践...

      “大数据”时下一个热门的词语,近几年来,关于大数据的著作和文章铺天盖地,似乎也在共同在传递一个信息:越来越多的行业、人士开始关注并实际探索大数据的应用,我们正在一起描绘着大数据巨大效用的蓝图,但在实践的路上,我们都处在孩子起步阶段小步前行。

     

      一、什么是大数据

     

      大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

     

      在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

     

      二、什么是数据平台

     

      大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。是允许开发者们或是将写好的程序放在“云”里运行,或是使用“云”里提供的服务,或二者皆是。

     

      类似目前很多舆情监测软件大数据分析系统,大数据平台是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等为一体的平台。

     

      三、大数据的具体应用

     

      首先我们要有数据源,然后对数据进行收集和存储,在这基础上,再进行分析和应用,形成我们的产品和服务,而产品和服务也会产生新的数据,这些数据会循环进入我们的流程中。当这个循环体系成为一个智能化的体系,便会成为一种新的模式,然后具体运用到实际的应用中,一种是精准化定制,二是预测。

     

      1.精准化定制

     

      第一种是个性化产品,比如智能化的搜索引擎搜索同样的内容,每个人的结果都不同,或者是一些定制化的新闻服务,或者是网游等。

     

      第二种是精准营销,现在已经比较常见的互联网营销,网页的推广等,或者是基于地理位置的信息推送,当我到达某个地方,会自动推送周边的消费设施等。

     

      第三种是选址定位,包括零售店面的选址,或者是公共基础设施的选址。

     

      这些全都是通过对用户需求的大数据分析,然后提供相对定制化的服务。

     

      2.预测类应用

     

      第一类是支持类的,小到企业的运营决策,证券投资决策,医疗行业的临床诊疗支持,以及电子政务等。

     

      第二类是风险预警类的,比如疫情预测,日常健康管理的疾病预测,设备实施的运营维护,公共安全,以及金融行业的信用风险管理等。

     

      第三类是实时优化类的,比如智能线路规划,实时定价等。

     

      什么是大数据和大数据平台?中琛魔方大数据分析平台表示:大数据的时代已经来临,这是一场时代的变革,只有把握好机遇,建立数据平台,运用到企业行业中,才能不会被这个时代淘汰。随着时代的更迭,演变出更适合发展的模式。

    展开全文
  • 大数据平台基础架构指南

    万次阅读 2018-07-09 08:46:04
    之前的文章,整理了一下,补充了一些内容,做了一些更新,现已出版上市了。...目录列表:第1章 大数据平台整体建设思想 11.1 什么是大数据平台 11.2 大数据平台的建设目标 31.2.1 别人的大数据平台是怎样的 31.2....

    之前的文章,整理了一下,补充了一些内容,做了一些更新,现已出版上市了。无耻的推广一下哈 ;) 淘宝,JD都有现货,Amazon,搜书名 《 大数据平台基础架构指南 》

    链接:https://item.jd.com/29923944547.html

    https://www.amazon.cn/dp/B07F3M1G6M/


    感谢博文视点的@侠少,感谢各位替本书写推荐语软文的朋友们,感谢之前蘑菇街大数据团队的各位小伙伴。











    目录列表:


    第1章  大数据平台整体建设思想 1

    1.1  什么是大数据平台 1

    1.2  大数据平台的建设目标 3

    1.2.1  别人的大数据平台是怎样的 3

    1.2.2  和业内领先的大数据平台的差距 4

    1.2.3  大数据平台建设目标小结 6

    1.3  大数据平台的建设指导方针 6

    1.3.1  组件工具化 7

    1.3.2  工具平台化 8

    1.3.3  平台服务化 9

    1.3.4  平台产品化 10

    1.3.5  对中小公司大数据平台的适用性 11

    1.4  大数据平台的两种建设路径 12

    1.4.1  垂直业务领域一站到底的建设方式 13

    1.4.2  通用组件建设,组合支持业务的方式 13

    1.4.3  从蘑菇街平台的实践经验对比两种建设路径 14

    1.4.4  两种建设路径的对比小结 16

    第2章  服务意识和产品思想的培养 17

    2.1  明确大数据平台服务能力的评估标准 17

    2.1.1  大数据平台团队的职能定位 18

    2.1.2  打通上下游系统和业务流程的能力 18

    2.2  满足用户真正的需求 19

    2.3  认清服务的代价,做好心理建设 20

    2.4  寻找解决服务代价问题的方案 23

    2.4.1  路线选择带来的代价问题 23

    2.4.2  如何降低服务自身的代价 25

    2.5  大数据平台的产品化思想 29

    2.5.1  从用户体验的角度谈产品设计 31

    2.5.2  从价值和利益的角度谈产品思维 36

    2.6  小结 38

    第3章  工作流(作业)调度系统 39

    3.1  作业调度系统基础理论 40

    3.1.1  调度系统分类 40

    3.1.2  工作流调度系统的两种心法流派 45

    3.1.3  工作流调度系统功能特性详解 49

    3.2  Jarvis调度系统产品开发实践 55

    3.2.1  需求定位分析 55

    3.2.2  具体功能目标的详细分析和实践 57

    3.2.3  第二代Jarvis现状和将来 75

    3.3  小结 79

    第4章  集成开发环境门户建设 81

    4.1  集成开发环境的功能定位 82

    4.1.1  集成开发环境的整体服务思路 83

    4.1.2  集成开发环境的具体产品建设目标 86

    4.1.3  小结 93

    4.2  开发平台测试环境建设 94

    4.2.1  问题背景 94

    4.2.2  系统功能性测试环境 95

    4.2.3  数据业务类测试环境 96

    4.2.4  小结 100

    第5章  数据采集、传输、交换、同步服务 101

    5.1  数据交换服务场景和常见开源方案 102

    5.1.1  大数据平台数据交换服务业务场景 102

    5.1.2  常见数据交换服务解决方案介绍 103

    5.2  数据交换服务具体产品实践 110

    5.2.1  数据交换服务底层组件 110

    5.2.2  数据交换服务管控平台 113

    5.2.3  蘑菇街数据交换服务的实践现状和未来改进计划 118

    5.3  用户行为链路分析之日志埋点采集跟踪方案实践 120

    5.3.1  记日志有什么难的 120

    5.3.2  蘑菇街的用户行为日志采集方案实践 122

    5.3.3  小结 129

    第6章  数据可视化平台 130

    6.1  什么是数据可视化平台 130

    6.1.1  数据可视化平台名词定义 131

    6.1.2  已经有了那么多商业BI系统,为什么还要造轮子 132

    6.2  数据可视化平台产品实践 134

    6.2.1  可视化平台产品定位和需求分析 135

    6.2.2  具体产品功能需求实践详解 136

    6.2.3  将来的改进目标 146

    6.2.4  产品实践小结 148

    第7章  安全与权限管控 149

    7.1  权限管理的目标是什么 149

    7.1.1  适度安全,降低人为风险 150

    7.1.2  隔离环境,提高工作效率 151

    7.1.3  权责明晰,规范业务流程 152

    7.1.4  权限管理目标小结 153

    7.2  如何解决安全和便利的矛盾 153

    7.2.1  安全和便利天生矛盾 153

    7.2.2  改变角度,转移目标 154

    7.2.3  把握尺度 155

    7.2.4  可能的变通措施 157

    7.2.5  思想小结 163

    7.3  权限管控系统产品方案和技术分析 163

    7.3.1  常见开源方案 164

    7.3.2  Kerberos 165

    7.3.3  Sentry和Ranger 168

    7.3.4  Knox 169

    7.3.5  开源项目中常见的权限模型概念 169

    7.4  基于开发平台服务入口的权限管控方案 171

    7.4.1  权限管控方案实践 171

    7.4.2  底层统一权限管控和平台边界权限管控方案对比 173

    第8章  数据质量管理 175

    8.1  元数据管理平台 176

    8.1.1  元数据管理平台管理什么 176

    8.1.2  元数据管理相关系统方案介绍 180

    8.1.3  元数据管理系统工程实践 183

    8.2  DQC数据质量中心 185

    8.2.1  DQC数据质量中心业界方案 186

    8.2.2  DQC数据质量系统建设实践 188

    8.3  数据质量管理小结 193

    第9章  大数据集群迁移经验谈 195

    9.1  集群迁移都要面对哪些麻烦事 196

    9.1.1  集群和机房外部环境问题 196

    9.1.2  平台自身组件和服务依赖问题 196

    9.1.3  业务模式和沟通配合问题 197

    9.1.4  业务逻辑和数据正确性问题 198

    9.2  集群搬迁方案的总体目标、原则、流程 199

    9.3  一些具体问题的分析和实践 201

    9.3.1  如何保证正确性 201

    9.3.2  集群数据同步拷贝方案 205

    9.3.3  各种无法双跑的业务场景梳理 207

    9.4  小结 208

    第10章  谈谈大数据码农的职业发展问题 210

    10.1  如何成为一名糟糕的大数据平台工程师 211

    10.1.1  我是小白我怕谁 211

    10.1.2  敏而好学,不耻下问 212

    10.1.3  效率优先,中文至上 213

    10.1.4  流行的就是最好的 213

    10.1.5  我们的征途,是星辰大海 215

    10.1.6  书中自有颜如玉,热衷阅读代码 216

    10.1.7  谜之问题的谜之解决方式 218

    10.1.8  勤奋好学,但是回头即忘 220

    10.1.9  小结 221

    10.2  职业选择和我们早晚要面对的中年危机问题 222

    10.2.1  中年危机,要从娃娃抓起 222

    10.2.2  中年危机之抗焦虑指南 223

    10.2.3  如何才能获得自由 225

    10.2.4  案例 230

    10.2.5  小结 233

    展开全文
  • 大数据平台搭建详解

    万次阅读 2018-05-12 11:41:37
    大数据平台搭建(实验室版)1大数据介绍:1.1背景进入21世纪随着计算机科学的迅速发展,人民生活水平的提高,各种交易产生的数据也飞速增长,2016天猫双11谢幕,根据阿里公布的实时数据,截至11日24:00:00,2016天猫...
  • 大数据平台解决方案

    万次阅读 2018-02-14 00:07:54
    1.1 华数大数据平台总体架构 1.1.1 华数大数据平台应用架构  应用架构图 基于华数多年来的开发经验,并借鉴行业大数据分析平台的实施、管理和应用方面的成功经验,结合禾丰牧业实际信息化情况,我们...
  • 大数据平台简介

    2020-10-15 14:39:19
    加入大数据大军已一年多了,一直以来都是从事传统数据仓库领域的工作,近一年开始接触基于大数据平台的数仓,并参与其中的数据开发。 下面是一些常用的大数据平台组件分享,希望有帮助到从事大数据相关领域的你。 ...
  • 大数据平台应用 17 个关键技术处理

    千次阅读 2019-04-26 12:18:18
    一、大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席...Hadoop已经是大数据平台的实...
  • 实时大数据平台的设计与实现

    千次阅读 2019-01-12 16:24:38
    实时大数据平台的设计与实现 什么是实时大数据平台 实时大数据平台和离线大数据平台还是有区别的,更强调数据的实时性.具体的架构,具体的代码该怎么写,模块怎么去构建,各个系统之间怎么去组织协调,都需要根据对应的...
  • 大数据平台的软件有哪些?

    万次阅读 2018-02-13 23:55:48
    查询引擎 一、Phoenix 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动。 Phoenix查询引擎会将SQL查询...
  • 主流大数据平台及解决方案对比

    万次阅读 2018-03-22 14:08:04
    http://blog.csdn.net/runningwulf1/article/details/51702990
  • 大数据组件图谱---比较齐全

    万次阅读 多人点赞 2020-10-06 13:17:38
    转载地址:... 大数据组件图谱 文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台 文件系统 HDFSHadoop Distributed File S
  • BDTC2015大会精彩演讲PPT集锦

    万人学习 2019-06-21 09:54:56
    中国大数据技术大会(Big Data Technology...从2007年仅60人参加的技术沙龙到当下数千人技术盛宴,作为极具实战价值的专业交流平台,已经成功举办8届的中国大数据技术大会见证了中国大数据生态系统的建立、发展和演变。
  • 搞定大数据平台:从入门到实战

    万人学习 2020-02-18 17:06:58
    本课程主要是构建大数据平台,包含目前大数据常用的所有技术组件的环境部署。所有技术组件的安装部署,都是手把手操作,不会出现跳讲和断讲,0基础同学也能一站式搞定大数据平台环境。
  • 大数据系列全套学习路线图

    万次阅读 2020-04-03 18:55:51
    Cloudera Manager平台部署说明书 Hadoop 大数据Hadoop系列之Hadoop分布式集群部署 大数据Hadoop系列之Hadoop机架感知配置 大数据Hadoop系列之HDFS命令讲解 大数据Hadoop系列之Hadoop服务开机自启动配置 大数据...
  • 【155G大数据视频】2018大数据视频教程全套

    万次阅读 热门讨论 2019-08-26 13:54:34
    尚硅谷2018大数据全套(8月8更新版)–关键字【大数据大数据完整教程155G+,视频教程 01_尚硅谷大数据技术之Linux基础.rar 02_尚硅谷大数据技术之Hadoop.rar 03_尚硅谷大数据技术之Zookeeper.rar 04_尚硅谷...
  • 大数据平台架构——通用版

    千次阅读 2017-09-07 10:59:04
    大数据时代的数据中心平台架构图
  • 大数据环境下的关联规则挖掘

    万人学习 2019-07-01 10:35:23
    大数据集环境下的关联规则发现日益受到重视,如何在大数据环境下进行数据分析和数据挖掘成为了企业要面对的首要难题!本次课程将讲解大数据环境下关联规则挖掘面临的挑战以及应用实践。
  • 智慧城市时空大数据平台建设技术大纲(2019版) 参考地址:http://gi.mnr.gov.cn/201902/t20190218_2395831.html 智慧城市时空大数据平台建设技术大纲.doc
  • 1024大数据技术峰会邀请到11位来自一线互联网企业的大数据核心研发团队骨干成员,针对选型开源技术搭建大数据平台、持续运维、优化提升大数据平台的各项性能,技术架构演进以及实现应用大数据支持业务创新发展,这几...
1 2 3 4 5 ... 20
收藏数 213,949
精华内容 85,579
关键字:

大数据平台