热门好课推荐
猜你喜欢
相关培训 相关博客
  • 1.分布式的三种模式 2.Hadoop集群的运行模式Hadoop的运行模式分为3种:本地运行模式(独立模式,单机模式),伪分布运行模式,集群运行模式(完全分布式模式)伪分布模式就是在一台服务器上面模拟集群环境,但仅仅是机器数量少,其通信机制与运行过程与真正的集群模式是一样的,hadoop的伪分布运行模式可以看做是集群运行模式的特殊情况。3.cloudera...
    2018-04-29 20:52:44
    阅读量:3455
    评论:0
  • 生活的本质就是快乐地分享,引导技术往熟悉的地方引导回答问题需要做到:简洁、痛点大数据的本质:从数据中挖掘价值云计算的本质:共享服务【某公司笔试面试题】1\使用mr,spark,sparksql编写wordcount程序【Spark版本】valconf=newSparkConf().setAppName("wd").setMaster("local[1]")vals...
    2016-06-06 13:47:33
    阅读量:28291
    评论:3
  • 面试问题问:什么是大数据?答:大数据是一个术语,它描述了大量的数据集,这些数据集在数据库管理工具或传统数据处理技术的帮助下非常难以捕获,存储,处理,检索和分析。问:大数据有什么特点?1.体积收集各种来源的数据,包括社交媒体,股票市场,飞机,电子商务网站。2.Variety-数据的类型和性质(音频,图像,视频)。3.速度-数据产生的速度非常大。问:如何分析大数据
    2017-12-18 18:09:20
    阅读量:998
    评论:0
  • 一、.hdfs写文件的步骤答案:(1)client向NameNode申请上传…/xxx.txt文件(2)NN向client响应可以上传文件(3)Client向NameNode申请DataNode(4)NN向Client返回DN1,DN2,DN3(5)Client向DN1,DN2,DN3申请建立文件传输通道(6)DN3,DN2,DN1依次响应连接(7)Client向D...
    2018-09-04 23:30:41
    阅读量:14868
    评论:1
  • 1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?  假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。  Step1:遍历文件a,对每个url求取hash(url)%1000,然后根
    2018-02-01 17:07:16
    阅读量:4032
    评论:0
  • 还在用着以前的大数据Hadoop面试题去美团面试吗?互联网发展迅速的今天,如果不及时更新自己的技术库那如何才能在众多的竞争者中脱颖而出呢?奉行着“吃喝玩乐全都有”和“美团一次美一次”的服务宣传宗旨的美团APP,是不是早已经在自己手机上赫然存在了好久,作为程序员的你是不是做梦都想进去工作呢?毕竟是知名企业而且薪资待遇是何等的诱人。     下面是自己学生面试大数据工程师时经历的面试题,就业讲师将其整...
    2018-03-28 16:43:25
    阅读量:2419
    评论:0
  • 1.   java内存模型2.gc3.编译好的scala程序,运行时还需要scala环境吗Scala的代码执行是用REPL过程,ReadExecutePrintLoop4.object中有哪些方法5.监测集群中的cpu,内存使用情况?6、ArrayList中的Array长度超了是怎么增加的,一次增加多少? --------------------------------------------...
    2018-02-28 17:14:21
    阅读量:4705
    评论:0
  • 1)给⼀个超过100G⼤⼩的logfile,log中存着IP地址,设计算法找到出现次数最多的IP地址?2)与上题条件相同,如何找到topK的IP?如何直接⽤Linux系统命令实现?3)给定100亿个整数,设计算法找到只出现⼀次的整数4)给两个⽂件,分别有100亿个整数,我们只有1G内存,如何找到两个⽂件交集5)1个⽂件有100亿个int,1G内存,设计算法找到出...
    2018-05-12 22:44:27
    阅读量:848
    评论:0
  • 最近由于要准备面试就开始提早看些面试、笔试题。以下是自己总结的一些经常出现、有价值的试题,包含hadoop、hive、hbase、storm、spark等。答案仅供参考,如有错误,请指出。试题不定时更新。hadoop相关试题MapTask并行机度是由什么决定的?由切片数量决定的。MR是干什么的?MR将用户编写的业务逻辑代码和自带的默认组件结合起来组成一个完整的分布式应用程序
    2018-01-02 15:02:27
    阅读量:6444
    评论:0
  • Java基础看过哪些jdk源码和常用的库用哪种Resultful风格多线程synchronized和lock的区别写哪些多线程的代码Jvm内存模型和垃圾回收机制classloader的功能和工作模式Hashmap原理Hashmap的扩容机制,currenthashmap原理A和B对象互相引用,是否垃圾回收String对象内存地址大数据技术Hbase二级索引Hbaserowkey设计Hb...
    2018-05-05 19:50:22
    阅读量:855
    评论:0