大数据平台_大数据平台搭建 - CSDN
精华内容
参与话题
  • 深入浅出解析大数据平台架构

    千次阅读 2018-02-13 20:21:02
    目录:什么是大数据Hadoop介绍-HDFS、MR、Hbase大数据平台应用举例-腾讯公司的大数据平台架构“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”...

    目录:

    • 什么是大数据
    • Hadoop介绍-HDFS、MR、Hbase
    • 大数据平台应用举例-腾讯
    • 公司的大数据平台架构

    “就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。

    大数据的4V特征-来源

    深入浅出解析大数据平台架构

    公司的“大数据”

    随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:

    1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;

    2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;

    ……

    三国里的“大数据”

    “草船借箭”和大数据有什么关系呢?对天象的观察是基于一种对风、云、温度、湿度、光照和所处节气的综合分析这些数据来源于多元化的“非结构”类型,并且数据量较大,只不过这些数据输入到的不是电脑,而是人脑并最终通过计算分析得出结论。

    深入浅出解析大数据平台架构

    Google分布式计算的三驾马车

    • Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。
    • Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。
    • BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。

    Hadoop体系架构

    深入浅出解析大数据平台架构

     

    Hadoop核心设计

    深入浅出解析大数据平台架构

     

    HDFS介绍-文件读流程

    深入浅出解析大数据平台架构

     

    Client向NameNode发起文件读取的请求。
    NameNode返回文件存储的DataNode的信息。
    Client读取文件信息。
    HDFS介绍-文件写流程
    深入浅出解析大数据平台架构
    Client向NameNode发起文件写入的请求。
    NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
    Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

    MapReduce——映射、化简编程模型

    输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果

    深入浅出解析大数据平台架构

     

    Hbase——分布式数据存储系统

    深入浅出解析大数据平台架构

     

    Client:使用HBase RPC机制与HMaster和HRegionServer进行通信

    Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

    HMaster: 管理用户对表的增删改查操作

    HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据

    HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table

    HStore:HBase存储的核心。由MemStore和StoreFile组成。

    HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件

    还有哪些NoSQL产品?

    深入浅出解析大数据平台架构

     

    为什么要使用NoSQL?

    一个高并发网站的DB进化史

    深入浅出解析大数据平台架构

    关系模型>聚合数据模型的转换-基本变换

    深入浅出解析大数据平台架构

     

    关系模型>聚合数据模型的转换-内嵌变换

    深入浅出解析大数据平台架构

     

    关系模型>聚合数据模型的转换-分割变换

    深入浅出解析大数据平台架构

     

    关系模型>聚合数据模型的转换-内联变换

     

    深入浅出解析大数据平台架构

    Hadoop2.0

    MapReduce:
    JobTracker:协调作业的运行。
    TaskTracker:运行作业划分后的任务。

    深入浅出解析大数据平台架构
    大数据的技术领域
    深入浅出解析大数据平台架构
    腾讯大数据现状(资料来自2014.4.11 腾讯分享日大会)
    深入浅出解析大数据平台架构
      深入浅出解析大数据平台架构
    腾讯大数据平台产品架构
    深入浅出解析大数据平台架构
    腾讯大数据平台与业务平台的关系
    深入浅出解析大数据平台架构
    公司数据处理平台的基础架构
    深入浅出解析大数据平台架构
    公司大数据平台架构图
    深入浅出解析大数据平台架构
    应用一数据分析
    深入浅出解析大数据平台架构
    应用二视频存储
      深入浅出解析大数据平台架构
    应用三离线日志分析
    深入浅出解析大数据平台架构
    应用五在线数据分析
    参考资料:京东基于Samza的流式计算实践
    深入浅出解析大数据平台架构
    展开全文
  • 大数据平台

    万次阅读 2018-01-26 11:04:12
    大数据平台选型有三种选择: 1、使用云平台,优点是建设周期短、运维成本低,缺点费用贵、数据安全性; 2、使用商业化的大数据平台,优点搭建部署方便、稳定性好,缺点是成本高、不够灵活; 3、自己造轮子,优点...

    选型

    大数据平台选型有三种选择:

    1、使用云平台,优点是建设周期短、运维成本低,缺点费用贵、数据安全性;

    2、使用商业化的大数据平台,优点搭建部署方便、稳定性好,缺点是成本高、不够灵活;

    3、自己造轮子,优点就是根据需要定制部署,缺点周期长、成本高、坑特别多。

    公司高层视数据如命,使用公有云平台是不可能的,大数据团队刚建成、预算不足,只能走向自主建设这条艰辛路。经历了大数据平台从有到无,功能越来越完善,稳定性和性能逐步提升,支持的业务越来越多。体会到自主建设一个生产级别的大数据平台,要踩了很多坑。所以记录一下大数据平台的技术演进历程,一来用于总结经验,二来也给其他正准备自己建设大数据平台的同学提供参考。

    总体架构

     

    • 数据源,支持多种数据源,可以实现对公司的各个业务线的数据进行接入整合;
    • 接入层,业务mysql数据库定时同步和基于canel的实时同步结合,日志数据实时接入,互联网海量数据实时爬取清洗;
    • 存储层,hdfs分布式文件系统实现海量数据存储,hbase提供数据实时读写,kafka消息队列实现数据缓存;
    • 计算层,离线计算引擎用于数据挖掘和机器学习模型训练,实时计算引擎实现日志的实时分析和处理,深度学习引擎用于人工智能算法的运行;
    • 分析层,实时SQL用于探索性分析和多维分析,机器学习算法用于商机的分类和推荐,NLP分析实现自然语言处理,深度学习算法用于图片水印和违禁图片识别;
    • 数据服务层,对外提供数据服务;
    • 数据应用层,个性推荐为PC端和单品通app端提供推荐服务;用户画像可以抽象出标签化的用户模型是提升会员质量的基础;用户行为分析对用户访问网站的规律进行分析可用于智能推荐;统计报表对数据进行挖掘分析,提供报表作为决策的依据,实现商业智能;运营支持对运营部门的需求提供大数据支持;数据大屏方便用户直观的了解运营情况,包括实时交易图、统计大屏和基地大屏。

    数据采集

    需要采集的数据有三类:
    • 业务数据,主要存储是关系型数据;
    • 日志类,主要存储是文件;
    • 爬虫抓取类,主要存储是文件。

    业务数据

    Sqoop阶段

    公司业务数据库使用的mysql,最初业务数据同步使用sqoop定时同步,主要问题有三个:数据同步有延时,同步后的数据有串行、对业务库压力大。所以想找到更好替代方案。

    Kafka Connect阶段

    这个时候confluent 的kafka connect 进入我们的视野,看完官网的介绍和原理,设计理念特别好,支持各种数据源,完全满足我们的需求,经过部署测试,稳定性太差,根本无法用到生产环境。

    Sqoop+canal阶段

    最后又把目光又回到了sqoop上,利用sqoop的job实现增量同步,同时对并行度进行优化基本可以满足要求。对业务数据库压力大的问题并没有解决,考虑专门创建一个mysql备库用于我们同步数据,这时候闪现了一个想法可以考虑直接读取mysql的binlog日志进行同步,先在github上找找有没有开源的轮子,在万能的github上找到了canal。最后的方案就是通过sqoop+canal的方案,sqoop用于第一次全量同步,canal用于增量同步。

    日志数据

    可选的方案有三个:

    flume、logstash、filebeat。最后的选择的是filebeat直接接入kafka,没有使用logstash原因是对服务器压力太大,flume更侧重数据传输。

    爬虫抓取类

    爬虫抓取集群和大数据集群网络环境差,爬取的文件格式复杂,这种情况是flume最擅长的。

    平台管理

    平台建设开始就要考虑的数据资源和计算资源的管理,避免使用混乱,否则后患无穷。

    数据资源管理

    hdfs、hive、hbase启用安全策略,开发了专门的元数据管理平台,对数据进行管理,包括数据所属人,数据的用途。

    计算资源管理

    引用账号和队列,每个产品线对应一个用户组,每个用户对应一个队列,针对队列设置配额。

    性能优化

    硬件环境

    • 系统盘和数据盘分开。避免使用一个磁盘的两个分区作为系统盘和数据盘,这样可以避免数据盘负载太高导致系统变卡。
    •  数据盘不需要做raid,直接使用单个磁盘。使用raid0虽然性能高,但是单个磁盘损坏会导致整个raid磁盘不能使用,使用raid5数据可靠性高,但是性能不高。更重要的是,我们数据的安全性靠的是软件保证。
    • 每台机器的磁盘数和磁盘空间尽可能一样。
    • 系统盘一定要是使用单独的磁盘,最少200G空间以上
    • 使用高转速磁盘,至少1000转以上,避免磁盘成为瓶颈。
    • 集群机器之间至少10Gigabit(万兆)以太网。
    •  内存、CPU、磁盘、带宽和磁盘io要保持一个合理的性价比。例如正常情况下内存越大越好,但是内存大到一定阶段,cpu和带宽就会成为瓶颈,如果加大cpu和带宽,最后磁盘io就有可能是瓶颈。

    操作系统

    • 禁用swap,使用交换分区会严重影响程序的性能。现在的内存已经不是很稀缺了,而且内存和磁盘速度相差太大。
    • 增大操作系统的最大打开文件数。
    • 设置数据盘的noatime属性。
    • 文件系统选择ext4

    部署建议

    hdfs

    Namenode节点不要和datanode节点部署在一起 

    Yarn

    • yarn分配的内存是机器总内存的75%,剩余的内存用于操作系统、系统缓存、程序等使用。
    • nm节点和datanode节点部署到同样的机器上。
    • RM节点选择和namenode节点部署到同一个机器。

    Zookeeper

    • zookeeper节点选择负载比较少的机器部署,不要和nodemanager部署到同一台机器上
    • zookeeper节点数3个
    • zookeeper数据最好存储到单独的磁盘上,不要和数据盘用同一个盘

    spark

    • 计算节点尽快能接近数据节点
    • 配置多个磁盘作为spark的本地目录,最好能和datanode的数据目录用同一个,spark-on-yarn由yarn.nodemanager.local-dirs确定

    kafka

    • kafka最好单独部署一个集群,如果机器资源不够也需要有单独的磁盘
    • kafka尽可能部署到负载比较小的机器上

    其它优化

    shuffle相关参数调优

    hdfs小文件合并

    任务隔离

    大数据集群的规模是随着业务发展逐渐增大,导致集群机器配置不一致,主要是有一批配置低的机器最初用来跑MR任务,一批配置高的机器使用跑spark任务,最好不同的任务能提交到指定的机器运行,所以引入了对NodeManager打标签。将配置低的机器打标签为MR任务,配置高分为spark离线任务和spark Streaming任务。同时对队列也设置相应的标签。


    展开全文
  • 什么是大数据和大数据平台?

    千次阅读 2019-07-16 14:50:48
    大数据”时下一个热门的词语,近几年来,关于大数据的著作和文章铺天盖地,似乎也在共同在传递一个信息:越来越多的行业、人士开始关注并实际探索大数据的应用,我们正在一起描绘着大数据巨大效用的蓝图,但在实践...

      “大数据”时下一个热门的词语,近几年来,关于大数据的著作和文章铺天盖地,似乎也在共同在传递一个信息:越来越多的行业、人士开始关注并实际探索大数据的应用,我们正在一起描绘着大数据巨大效用的蓝图,但在实践的路上,我们都处在孩子起步阶段小步前行。

     

      一、什么是大数据

     

      大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

     

      在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

     

      二、什么是数据平台

     

      大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。是允许开发者们或是将写好的程序放在“云”里运行,或是使用“云”里提供的服务,或二者皆是。

     

      类似目前很多舆情监测软件大数据分析系统,大数据平台是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等为一体的平台。

     

      三、大数据的具体应用

     

      首先我们要有数据源,然后对数据进行收集和存储,在这基础上,再进行分析和应用,形成我们的产品和服务,而产品和服务也会产生新的数据,这些数据会循环进入我们的流程中。当这个循环体系成为一个智能化的体系,便会成为一种新的模式,然后具体运用到实际的应用中,一种是精准化定制,二是预测。

     

      1.精准化定制

     

      第一种是个性化产品,比如智能化的搜索引擎搜索同样的内容,每个人的结果都不同,或者是一些定制化的新闻服务,或者是网游等。

     

      第二种是精准营销,现在已经比较常见的互联网营销,网页的推广等,或者是基于地理位置的信息推送,当我到达某个地方,会自动推送周边的消费设施等。

     

      第三种是选址定位,包括零售店面的选址,或者是公共基础设施的选址。

     

      这些全都是通过对用户需求的大数据分析,然后提供相对定制化的服务。

     

      2.预测类应用

     

      第一类是支持类的,小到企业的运营决策,证券投资决策,医疗行业的临床诊疗支持,以及电子政务等。

     

      第二类是风险预警类的,比如疫情预测,日常健康管理的疾病预测,设备实施的运营维护,公共安全,以及金融行业的信用风险管理等。

     

      第三类是实时优化类的,比如智能线路规划,实时定价等。

     

      什么是大数据和大数据平台?中琛魔方大数据分析平台表示:大数据的时代已经来临,这是一场时代的变革,只有把握好机遇,建立数据平台,运用到企业行业中,才能不会被这个时代淘汰。随着时代的更迭,演变出更适合发展的模式。

    展开全文
  • 大数据平台基础架构指南

    万次阅读 2018-07-09 08:46:04
    之前的文章,整理了一下,补充了一些内容,做了一些更新,现已出版上市了。...目录列表:第1章 大数据平台整体建设思想 11.1 什么是大数据平台 11.2 大数据平台的建设目标 31.2.1 别人的大数据平台是怎样的 31.2....

    之前的文章,整理了一下,补充了一些内容,做了一些更新,现已出版上市了。无耻的推广一下哈 ;) 淘宝,JD都有现货,Amazon,搜书名 《 大数据平台基础架构指南 》

    链接:https://item.jd.com/29923944547.html

    https://www.amazon.cn/dp/B07F3M1G6M/


    感谢博文视点的@侠少,感谢各位替本书写推荐语软文的朋友们,感谢之前蘑菇街大数据团队的各位小伙伴。











    目录列表:


    第1章  大数据平台整体建设思想 1

    1.1  什么是大数据平台 1

    1.2  大数据平台的建设目标 3

    1.2.1  别人的大数据平台是怎样的 3

    1.2.2  和业内领先的大数据平台的差距 4

    1.2.3  大数据平台建设目标小结 6

    1.3  大数据平台的建设指导方针 6

    1.3.1  组件工具化 7

    1.3.2  工具平台化 8

    1.3.3  平台服务化 9

    1.3.4  平台产品化 10

    1.3.5  对中小公司大数据平台的适用性 11

    1.4  大数据平台的两种建设路径 12

    1.4.1  垂直业务领域一站到底的建设方式 13

    1.4.2  通用组件建设,组合支持业务的方式 13

    1.4.3  从蘑菇街平台的实践经验对比两种建设路径 14

    1.4.4  两种建设路径的对比小结 16

    第2章  服务意识和产品思想的培养 17

    2.1  明确大数据平台服务能力的评估标准 17

    2.1.1  大数据平台团队的职能定位 18

    2.1.2  打通上下游系统和业务流程的能力 18

    2.2  满足用户真正的需求 19

    2.3  认清服务的代价,做好心理建设 20

    2.4  寻找解决服务代价问题的方案 23

    2.4.1  路线选择带来的代价问题 23

    2.4.2  如何降低服务自身的代价 25

    2.5  大数据平台的产品化思想 29

    2.5.1  从用户体验的角度谈产品设计 31

    2.5.2  从价值和利益的角度谈产品思维 36

    2.6  小结 38

    第3章  工作流(作业)调度系统 39

    3.1  作业调度系统基础理论 40

    3.1.1  调度系统分类 40

    3.1.2  工作流调度系统的两种心法流派 45

    3.1.3  工作流调度系统功能特性详解 49

    3.2  Jarvis调度系统产品开发实践 55

    3.2.1  需求定位分析 55

    3.2.2  具体功能目标的详细分析和实践 57

    3.2.3  第二代Jarvis现状和将来 75

    3.3  小结 79

    第4章  集成开发环境门户建设 81

    4.1  集成开发环境的功能定位 82

    4.1.1  集成开发环境的整体服务思路 83

    4.1.2  集成开发环境的具体产品建设目标 86

    4.1.3  小结 93

    4.2  开发平台测试环境建设 94

    4.2.1  问题背景 94

    4.2.2  系统功能性测试环境 95

    4.2.3  数据业务类测试环境 96

    4.2.4  小结 100

    第5章  数据采集、传输、交换、同步服务 101

    5.1  数据交换服务场景和常见开源方案 102

    5.1.1  大数据平台数据交换服务业务场景 102

    5.1.2  常见数据交换服务解决方案介绍 103

    5.2  数据交换服务具体产品实践 110

    5.2.1  数据交换服务底层组件 110

    5.2.2  数据交换服务管控平台 113

    5.2.3  蘑菇街数据交换服务的实践现状和未来改进计划 118

    5.3  用户行为链路分析之日志埋点采集跟踪方案实践 120

    5.3.1  记日志有什么难的 120

    5.3.2  蘑菇街的用户行为日志采集方案实践 122

    5.3.3  小结 129

    第6章  数据可视化平台 130

    6.1  什么是数据可视化平台 130

    6.1.1  数据可视化平台名词定义 131

    6.1.2  已经有了那么多商业BI系统,为什么还要造轮子 132

    6.2  数据可视化平台产品实践 134

    6.2.1  可视化平台产品定位和需求分析 135

    6.2.2  具体产品功能需求实践详解 136

    6.2.3  将来的改进目标 146

    6.2.4  产品实践小结 148

    第7章  安全与权限管控 149

    7.1  权限管理的目标是什么 149

    7.1.1  适度安全,降低人为风险 150

    7.1.2  隔离环境,提高工作效率 151

    7.1.3  权责明晰,规范业务流程 152

    7.1.4  权限管理目标小结 153

    7.2  如何解决安全和便利的矛盾 153

    7.2.1  安全和便利天生矛盾 153

    7.2.2  改变角度,转移目标 154

    7.2.3  把握尺度 155

    7.2.4  可能的变通措施 157

    7.2.5  思想小结 163

    7.3  权限管控系统产品方案和技术分析 163

    7.3.1  常见开源方案 164

    7.3.2  Kerberos 165

    7.3.3  Sentry和Ranger 168

    7.3.4  Knox 169

    7.3.5  开源项目中常见的权限模型概念 169

    7.4  基于开发平台服务入口的权限管控方案 171

    7.4.1  权限管控方案实践 171

    7.4.2  底层统一权限管控和平台边界权限管控方案对比 173

    第8章  数据质量管理 175

    8.1  元数据管理平台 176

    8.1.1  元数据管理平台管理什么 176

    8.1.2  元数据管理相关系统方案介绍 180

    8.1.3  元数据管理系统工程实践 183

    8.2  DQC数据质量中心 185

    8.2.1  DQC数据质量中心业界方案 186

    8.2.2  DQC数据质量系统建设实践 188

    8.3  数据质量管理小结 193

    第9章  大数据集群迁移经验谈 195

    9.1  集群迁移都要面对哪些麻烦事 196

    9.1.1  集群和机房外部环境问题 196

    9.1.2  平台自身组件和服务依赖问题 196

    9.1.3  业务模式和沟通配合问题 197

    9.1.4  业务逻辑和数据正确性问题 198

    9.2  集群搬迁方案的总体目标、原则、流程 199

    9.3  一些具体问题的分析和实践 201

    9.3.1  如何保证正确性 201

    9.3.2  集群数据同步拷贝方案 205

    9.3.3  各种无法双跑的业务场景梳理 207

    9.4  小结 208

    第10章  谈谈大数据码农的职业发展问题 210

    10.1  如何成为一名糟糕的大数据平台工程师 211

    10.1.1  我是小白我怕谁 211

    10.1.2  敏而好学,不耻下问 212

    10.1.3  效率优先,中文至上 213

    10.1.4  流行的就是最好的 213

    10.1.5  我们的征途,是星辰大海 215

    10.1.6  书中自有颜如玉,热衷阅读代码 216

    10.1.7  谜之问题的谜之解决方式 218

    10.1.8  勤奋好学,但是回头即忘 220

    10.1.9  小结 221

    10.2  职业选择和我们早晚要面对的中年危机问题 222

    10.2.1  中年危机,要从娃娃抓起 222

    10.2.2  中年危机之抗焦虑指南 223

    10.2.3  如何才能获得自由 225

    10.2.4  案例 230

    10.2.5  小结 233

    展开全文
  • Hadoop是开源的分布式存储+分布式计算平台的框架 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的...
  • 大数据平台解决方案

    万次阅读 2018-02-14 00:07:54
    1.1 华数大数据平台总体架构 1.1.1 华数大数据平台应用架构  应用架构图 基于华数多年来的开发经验,并借鉴行业大数据分析平台的实施、管理和应用方面的成功经验,结合禾丰牧业实际信息化情况,我们...
  • 大数据平台简介

    2020-10-15 14:39:19
    加入大数据大军已一年多了,一直以来都是从事传统数据仓库领域的工作,近一年开始接触基于大数据平台的数仓,并参与其中的数据开发。 下面是一些常用的大数据平台组件分享,希望有帮助到从事大数据相关领域的你。 ...
  • 大数据平台应用 17 个关键技术处理

    千次阅读 2019-04-26 12:18:18
    一、大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席...Hadoop已经是大数据平台的实...
  • 大数据平台搭建详解

    万次阅读 2018-05-12 11:41:37
    大数据平台搭建(实验室版)1大数据介绍:1.1背景进入21世纪随着计算机科学的迅速发展,人民生活水平的提高,各种交易产生的数据也飞速增长,2016天猫双11谢幕,根据阿里公布的实时数据,截至11日24:00:00,2016天猫...
  • 大数据平台的软件有哪些?

    万次阅读 2018-02-13 23:55:48
    查询引擎 一、Phoenix 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动。 Phoenix查询引擎会将SQL查询...
  • 作者 |June来源 | 智领云科技(ID:LinkTimeCloud)造概念,在 IT 行业可不是一件陌生的事儿,中文博大精深,新名词、新概念往往简单准确,既可以被大众接受,又可以被...
  • 大数据平台偏向于工程方面,大数据平台一般包括数据源、数据采集、数据存储、数据分析等方面。 讲师从数据来源、数据源结构、数据变化程度和数据规模等4个维度对数据源进行分类,数据源分类维度的不同决定最后的...
  • 美团大数据平台

    千次阅读 2018-11-02 10:54:33
    今天给大家介绍的内容主要包括以下四个部分首先是介绍一下美团大数据平台的架构,然后回顾一下历史,看整个平台演进的时间演进线,每一步是怎么做的,以及一些挑战和应对策略,最后总结一下,聊一聊我对平台化的看法...
  • 大数据平台是什么?

    2019-09-03 21:49:53
    大数据平台目前业界也没有统一的定义,但一般情况下,使用了Hadoop、Spark、Storm、Flink等这些分布式的实时或者离线计算框架,建立计算集群,并在上面运行各种计算任务,这就是通常理解上的大数据平台大数据...
  • 一、项目背景 ...***(某政府部门)为积极应对“互联网+”和大数据时代的机遇和挑战,适应全省经济社会发展与改革要求,大数据平台应运而生。 在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205...
  • 技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等。 总之是你方唱罢他登场,各种概念满天飞… 在比拼新经济的过程中,其实比拼的是流量也就是用户,但流量不等于用户,用户...
  • 4、什么是企业大数据平台?5、如何用CM+CDH构建企业大数据平台?..........带着种种疑问让我们开启真正的企业级大数据平台搭建之旅。 随着互联网,尤其是移动互联网和智能移动设备的高速发展和大面积普及,数据产生...
  • 大数据平台的基础能力和性能测试

    万次阅读 2018-05-17 23:01:16
    开源技术催生了大量的商业发行版大数据平台软件,大数据企业级市场竞争加剧,如何测试和评估这些大数据平台软件成为新的研究主题。简要地介绍了大数据技术发展的背景以及大数据技术标准的需求,综述了国际大数据平台...
  • 实时大数据平台的设计与实现

    千次阅读 2019-01-12 16:24:38
    实时大数据平台的设计与实现 什么是实时大数据平台 实时大数据平台和离线大数据平台还是有区别的,更强调数据的实时性.具体的架构,具体的代码该怎么写,模块怎么去构建,各个系统之间怎么去组织协调,都需要根据对应的...
  • 001-Ambari-大数据平台搭建利器(一)

    千次阅读 2018-08-13 08:14:58
    微信搜索公众号:BearData,关注更多内容。 Ambari是Hortonworks开源的大数据生态圈的管理软件...搭建大数据平台主要分为两部分,一部分是大数据平台管理系统搭建,即Ambari安装,另一部分通过Ambari安装大数据生态...
1 2 3 4 5 ... 20
收藏数 216,040
精华内容 86,416
关键字:

大数据平台