热门好课推荐
猜你喜欢
相关培训 相关博客
  • 1.分布式的三种模式 2.Hadoop集群的运行模式Hadoop的运行模式分为3种:本地运行模式(独立模式,单机模式),伪分布运行模式,集群运行模式(完全分布式模式)伪分布模式就是在一台服务器上面模拟集群环境,但仅仅是机器数量少,其通信机制与运行过程与真正的集群模式是一样的,hadoop的伪分布运行模式可以看做是集群运行模式的特殊情况。3.cloudera...
    2018-04-29 20:52:44
    阅读量:2493
    评论:0
  • 1)给一个超过100G大小的logfile,log中存着IP地址,设计算法找到出现次数最多的IP地址?!解决方法将100G分成100份,将每个ip映射到相应文件中ip_if=ip%100找出每个文件中的出现次数最多的一个ip再将100份里找出来的最多的一个放入一个哈希表中进行比较找出最大值2)与上题条件相同,如何找到topK的IP?如何直接⽤用Linux系统命令实现?...
    2018-09-07 14:13:00
    阅读量:72
    评论:0
  • 本文为转的,怕忘记了还有:http://blog.csdn.net/ycl1989y/article/details/7796250第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模10
    2015-04-23 11:13:26
    阅读量:412
    评论:0
  • 1、hadoop:1)hadoop是大数据分析的完整生态系统,从数据采集,存储,分析,转运,再到页面展示,构成了整个流程2)采集可以用flume,3)存储用hbase,hdfs,mangodb就相当于hbase,4)分析用Mapreduce自己写算法,5)还有hive做数据仓库,6)pig做数据流处理,7)转储方面有sqoop,可以将hdfs中的数据转换存储到mysql,oracle...
    2018-12-03 17:33:14
    阅读量:89
    评论:0
  • hadoop面试(带答案)
    2016-10-13 19:52:13
    阅读量:5385
    评论:0
  • 9.面试问题:1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂)2.hadoop的namenode宕机,怎么解决先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元数据丢失,但是硬盘中的元数据应该还存在,如果只是节点挂了,重启即可,如果是机器挂了,重启机器后看节点是否能重启,不能重启就要找到原因修复了。...
    2018-11-07 17:07:16
    阅读量:165
    评论:0
  • kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等等);如果ma...
    2018-08-09 11:08:20
    阅读量:283
    评论:0
  • 1、mapreduce的大致流程2、列出正确的hadoop集群中hadoop都分别启动那些进程,他们的作用分别是什么,尽量详细些。3、请列出你所知道的hadoop调度器,并简要说明其工作方法。4.flume不采集Nginx日志,通过logger4j采集日志,优缺点是什么?在nginx采集日志时无法获取session的信息,然而logger4j则可以获取session的信息,logger4j的方式比...
    2018-05-21 17:35:00
    阅读量:159
    评论:0
  •  BigData 面试题总结 JAVA相关1-1)List 与set 的区别?老掉牙的问题了,还在这里老生常谈:List特点:元素有放入顺序,元素可重复,Set特点:元素无放入顺序,元素不可重复。 1-2)数据库的三大范式?原子性、一致性、唯一性 1-3)java 的io类的图解 1-4)对象与引用对象的区别对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个初始化可以使自己的...
    2018-05-11 15:28:42
    阅读量:798
    评论:0
  • 技术面试题1.Hadoop中有哪些组件?Hadoop=HDFS+Yarn+MapReduce+Hive+Hbase+...1).HDFS:分布式文件存储系统主:namenode,secondarynamenode从:datanode...
    2019-02-28 16:00:31
    阅读量:196
    评论:0