热门好课推荐
猜你喜欢
相关培训 相关博客
  •    大数据,可以称作近两年IT界最火的名词。当前大数据组件蓬勃发展,国内国外IT公司不断开源自己公司所开发的各种组件,包括消息队列、资源管理、数据存储、数据集成、数据计算、查询分析、数据可视化、任务调度等满足自身业务需求的大数据组件系统。本文总结当前业内应用较多的,并且社区较活跃的组件。主要以脑图、架构图、列图形式展示。-----------------------------------...
    2018-03-07 12:57:13
    阅读量:3545
    评论:1
  • 大数据软件框架之Hadoop框架:Hadoop框架是由Java语言编写的,它的核心是HDFS(Hadoop分布式文件系统)和MapReduse,对于大数据而言,Hadoop就是用大量的廉价机器组成的集群去执行大规模运算,这包括大规模的计算和大规模的存储。HDFS为大数据提供了存储,MapReduse为大数据提供了计算。HDFS是一个可运行在廉价机器上的可容错
    2017-08-09 12:37:45
    阅读量:7583
    评论:0
  •     在业务数据的处理过程中,经常会遇到夜间批次处理大量的数据,而且会有时效的要求,这就对程序执行的性能有了较高要求。特别是当应用系统跑了2年以上时,就会有大表或者特大表的操作了,数据量达到百万甚至上亿。这时回顾前期的设计,就可能会发现好多问题。可能是由于数据模型设计的时候没有考虑表的分区和及时归档,造成大表处理慢;也可能是涉及到的sql的设计没有考虑走索引,或有隐式转换、全表扫描、...
    2017-03-12 21:25:26
    阅读量:1872
    评论:0
  • 卡弗卡大数据2017-05-0717:27第一阶段:先说说伪分布式不管是HDFS和YARN,在我们之前的文章中已经说过关于伪分布式的部署和安装。也就是我们把HDFS的两个节点NameNode和DataNode,YARN的ResourceManger和NodeManager都放在同一个机器上。机器1:bigdata-senior01.kfk.com进程包括:
    2017-05-12 13:46:48
    阅读量:5889
    评论:0
  • 1简介  Hadoop的系统环境是:Linux或者Unix。Hadoop有两个核心服务模块:DFS和YARN1.1DFS(存储) 对于存储Hadoop提供了HDFS分布式文件系统(HadoopDistributedFileSystem,简称HDFS)。分布式文件系统吧文件分布存储到多个计算机节点上,很多的计算机节点构成了计算机集群;分布式文件系统由计算机集群中的多个节点构成
    2016-11-03 23:40:52
    阅读量:6033
    评论:0
  • 大数据方向的工作目前分为三个主要方向:01.大数据工程师02.数据分析师03.大数据科学家04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)一、大数据工程师的技能要求二、大数据学习路径三、学习资源推荐(书籍、博客、网站)一、大数据工程师的技能要求总结如下:必须技能10条:01.J
    2017-09-26 22:24:45
    阅读量:5972
    评论:0
  • Hadoop的前世今生Google大数据技术:1.MapReduce:概念"Map(映射)"和"Reduce(归约)",它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数...
    2018-05-02 19:45:12
    阅读量:1941
    评论:0
  •                         
    2019-01-11 10:10:30
    阅读量:856
    评论:0