精华内容
下载资源
问答
  • Hadoop学习

    2013-07-01 01:20:14
    Hadoop实战》作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式 计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地...

    《Hadoop实战》作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式 计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实 践技能及Hadoop之外更大的生态系统。
    《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。

    Hadoop权威指南

    本书是您纵情享用数据之美的得力助手。作为处理 海量数据集的理想工具,Apache Hadoop架构是MapReduce算法的一种开源应用,是Google(谷歌)开创其帝国的重要基石。本书内容丰富,展示了如何使用Hadoop构建 可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以了解如何建立与运行Hadoop集群。.
    本书完全通过案例学习来展示如何用Hadoop解决特殊问题,它将帮助您:
    使用Hadoop分布式文件系统(HDFS)来存储海量数据集,通过MapReduce对这些数据集运行分布式计算..
    熟悉Hadoop的数据和I/O构件,用于压缩、数据集成、序列化和持久处理
    洞悉编写MapReduce实际应用程序时常见陷阱和高级特性
    设计、构建和管理专用的Hadoop集群或在云上运行Hadoop
    使用Pig这种高级的查询语言来处理大规模数据
    利用HBase这个Hadoop数据库来处理结构化和半结构化数据
    学习Zookeeper,这是一个用于构建分布式系统的协作原语工具箱
    如果您拥有海量数据,无论是GB级还是PB级,Hadoop都是完美的选择。本书是这方面最全面的参考。

    展开全文
  • hadoop学习

    2013-05-12 22:11:07
    而大数据目前最主要的架构就是基于hadoop,所以开始学习hadoop。 本来前两周就准备定期写博客,以此来督促一下自己的学习进度,毕竟总有些不知道方向,似乎IT相关的许多技术我都了解,但可悲的却是无一精通……...

    最近自己给自己定了个研究方向:大数据存储/分析/挖掘


    而大数据目前最主要的架构就是基于hadoop,所以开始学习hadoop。


    本来前两周就准备定期写博客,以此来督促一下自己的学习进度,毕竟总有些不知道方向,似乎IT相关的许多技术我都了解,但可悲的却是无一精通……这样很难想象找工作的时候是个什么状态。所以,加油!


    --------------------------------------------------------------------------------------------------------------------------------------------------------------------


    目前hadoop的学习状态:


    1.JAVA(了解,但不精通,正在重新学习)


    2.Hadoop(单机和集群安装、了解HDFS/MapReduce)


    3.Linux(了解,能够进行一些具体操作,正在深入学习)


    所以,5月13--5月18日的主要工作是


    在了解hadoop HDFS Map/Reduce 的基础上,利用hadoop提供的api进行一些简单的开发工作,做一些小的实例,并写上几篇blog。




    展开全文
  • hadoop学习总结

    千次阅读 2017-11-19 15:16:06
    hadoop学习总结:1.hadoop简介:(1)分布式存储系统。HDFS(Hadoop Distirbuted File System) #分布式存储系统。 #提供了高可靠/高拓展/高吞吐率的数据存储服务。 (2)分布式计算框架MapReduce。 #分布式...

    hadoop学习总结:

    1.hadoop简介:

    (1)分布式存储系统。HDFS(Hadoop Distirbuted File System)
    #分布式存储系统。
    #提供了高可靠/高拓展/高吞吐率的数据存储服务。
    (2)分布式计算框架MapReduce。
    #分布式计算框架
    #具有易于编程/高容错率/高拓展性等有点。

    2.HDFS优点:

    (1)高容错性
    #数据自动保存多个副本。
    #副本丢失后,自动恢复。
    (2)适合批处理。
    #移动计算而非数据。
    #数据位置暴露给计算框架
    (3)适合大数据处理
    #GB/TB/甚至PB级数据。
    #百万规模以上的文件数量
    #10k+节点
    (4)可构建在廉价的机器上
    #通过多副本提高可靠性。
    #提供了容错和恢复机制。

    3.HDFS缺点:

    (1)低延迟数据访问
    #比如毫秒级
    #低延迟与高吞吐率
    (2)小文件存取
    #占用NameNode大量内存
    #寻道时间超过读取时间
    (3)并发写入/文件随机修改
    #一个文件只能有一个写者
    #仅支持append

    4.HDFS 数据存储单元(block)

    (1)文件被切分成固定大小的数据块:默认数据块大小为64MB(hadoop1.x),可配置。若文件大小不到64MB,则单独存成一个block。
    (2)一个文件存储方式:按大小被切分成若干个block,存储到不同节点上,默认情况下每个block都有三个副本。
    (3)Block大小和副本数通过Client端上传文件时设置,文件上传成功后副本数可以变更,Block Size不可变更。

    5. NameNode(NN)

    (1)NameNode主要功能:接受客户端的读写服务
    (2)NameNode保存metadate信息包括
    #文件owership和permissions
    #文件包含哪些块
    #Block保存在哪个DataNode(由DataNode启动时上报)
    (3)NameNode的metadate信息在启动后会加载到内存
    #metadata存储到磁盘文件名为”fsimage”
    #Block的位置信息不会保存到fsimage
    #edits记录对metadata的操作日志

    6.SecondaryNameNode(SNN)

    (1)它不是NN的备份(但可以做备份),它的主要工作是帮助NN合并edits log,减少NN启动时间。
    (2)SNN执行合并时机
    #根据配置文件设置的时间间隔fs.checkpoint.period 默认3600秒。
    #根据配置文件设置edits log大小 fs.checkpoint.size 规定edits文件的最大值默 认是64MB。

    7.DataNode(DN)

    (1)存储数据(Block)
    (2)启动DN线程的时候会向NN汇报block信息
    (3)通过向NN发送心跳保持与其联系(3秒一次),如果NN10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DN。

    8. Block的副本放置策略

    (1)第一个副本:放置在上传文件的DN; 如果是集群外提交,则随机挑选一台 磁盘不太满,CPU不太忙的节点。
    (2)第二个副本:放置在于第一个副本不 同的 机架的节点上。
    (3)第三个副本:与第二个副本相同机架 的节点。
    (4)更多副本:随机节点.

    9.HDFS文件权限

    (1)与Linux文件权限类似,r: read; w:write; x:execute,权限x对于文件忽略,对于文件夹表示是否允许访问其内容。
    (2)如果Linux系统用户zhangsan使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是zhangsan。
    (3)HDFS的权限目的:阻止好人错错事,而不是阻止坏人做坏事。HDFS相信,你告诉我你是谁,我就认为你是谁。

    10.安全模式

    (1)namenode启动的时候,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。
    (2)一旦在内存中成功建立文件系统元数据的映射,则创建一个新的fsimage文件(这个操作不需要SecondaryNameNode)和一个空的编辑日志。
    (3)此刻namenode运行在安全模式。即namenode的文件系统对于客服端来说是只读的。(显示 目录,显示文件内容等。写、删除、重命名都会失败)。
    (4)在此阶段Namenode收集各个datanode的报告,当数据块达到最小副本数以上时,会被认为是“安全”的,在一定比例(可设置)的数据块被确定为“安全”后,再过若干时间,安全模式结束。
    (5)当检测到副本数不足的数据块时,该块会被复制直到达到最小副本数,系统中数据块的位 置并不是由namenode维护的,而是以块列表形式存储在datanode中。

    11. 安装HDFS和hadoop。(集群)

    使用四个real server做测试。realserver1,2,3,4.
    (1)检查集群的机器时间基本一致(在30秒以内)
    (2)安装java和ssh。
    #安装SSH :基本CentOS已经安装好了。可以自己测试一下,如果需要安装自己在网上找教程。
    #安装java:
    - 首先下载java安装包到系统中,然后解压,配置环境变量。
    CentOS7中 vi /etc/profile
    export JAVA_HOME=/usr/java/jdk1.7.0_79
    export PATH=PATH:JAVA_HOME/bin
    source /etc/profile
    - 测试:
    $JAVA_HOME/bin/java -version和java -version输出的版本信息一致。
    (3)免登录的配置。
    #使用命令加密:ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa
    - 在~/.ssh中有三个文件,id_dsa是私钥文件,自己使用,id_dsa.pub公钥文件,给别人使用,免密码登陆系统的时候使用。
    #把公钥放到本机的认证文件中, cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys。这样登陆本机就不需要密码了。
    #让本机登陆其他datenode不需要密码。
    - 把本机的公钥复制给其他机器,scp ~/.ssh/id_dsa.pub root@192.168.0.5:/opt
    - 把本机公钥添加到其他机器的认证文件中,cat /opt/id_dsa.pub >> ~/.ssh/authorized_keys
    (4)拷贝hadoop2.5.1安装包到系统中,解压。配置文件。
    #配置JAVA_HOME:hadoop-2.5.1/etc/hadoop/hadoop-env.sh.在文本内容中,修改JAVA_HOME的环境变量。
    #vi core-site.xml:

        <configuration>
            <property>
                <name>fs.defaultFS</name>
                <value>hdfs://192.168.0.4:9000</value>
            </property>
            <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/hadoop-2.5</value>
            </property>
        </configuration>
    #vi hdfs-site.xml:
    
        <configuration>
            <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>192.168.0.5:50090</value>
            </property>
            <property>
                <name>dfs.namenode.secondary.https-address</name>
                <value>192.168.0.5:50091</value>
            </property>
        </configuration>
    #vi slaves:配置datenote的属性。
        192.168.0.5
        192.168.0.8
        192.168.0.9
    #vi masters:配置secondary namenode
        192.168.0.5
    

    (5)把安装在本机上的hadoop复制到各个节点中。
    # scp -r hadoop-2.5.1/ root@192.168.0.9:/root

    (6)配置hadoop的环境变量:在每个机器都配置。
    #export HADOOP_HOME=/usr/yiyele/hadoop-2.5.1
    export PATH=PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin

    (7)格式化namenode,生成fsimage文件。
    #hdfs namenode -format
    #start-dfs.sh
    #stop-dfs.sh

    (8)如果以上配置完成后,还不能显示datanode,可以试着添加或修改主机名。hostname /etc/hosts /etc/hostname

    12. HDFS 2.x

    (1)解决HDFS1.0中的单点故障和内存受限问题。
    #解决单点故障:
    - HDFS HA:通过主备NameNode解决。除了edit文件不一致,其他文件基本一致。例如初始元数据,fsimage文件等,目的是为了实现瞬间接管。
    如果在每次更新fsimage数据时,会同时更新备用NameNode的fsimage信息。datanode在发送block信息时,也会同时向备用NameNode发送。
    - 如果主NameNode发生故障,则切换到备NameNode上。
    #解决内存受限问题
    - HDFS Federation
    - 每个NameNode分管一部分目录
    - 所有NameNode共享所有的DataNode存储资源
    (2)2.x仅是架构上发生了变化,使用方式不变
    #对HDFS使用者透明
    #HDFS1.x中的命令和API仍可以使用。

    13. 搭建HDFS HA集群:(实在hadoop集群搭建好的基础上进行修改)

    (1)搭建zookeeper:server1 server2 server3
    #安装zookeeper,解压。配置文件。
    - 进入到zookeeper目录下的conf,创建文件zoo.cfg。 vi zoo.cfg
    tickTime=2000
    dataDir=/opt/zookeeper
    clientPort=2181
    initLimit=5
    syncLimit=2
    server.1=nginx1:2888:3888
    server.2=nginx2:2888:3888
    server.3=lvs:2888:3888
    #在/opt/zookeeper/目录下创建myid文件。 vi myid
    - 分别写入对应的id,1,2,3
    #配置环境变量vi profile,把zookeeper目录下的bin加入PATH中。/usr/yiyele/zookeeper-3.4.6/bin
    #启动zookeeper,在bin目录下,命令:zkServer.sh start
    #连接内存数据库:zkCli.sh
    (2)配置zookeeper和hadoop(保证zookeeper处于启动状态不变)
    #删除hadoop配置文件中的masters(配置secondaryNameNode),删除hadoop的缓存文件。/opt/hadoop-2.5.
    #编辑hdfs-site.xml:
    - nameservices配置:

          <property>
            <name>dfs.nameservices</name>
            <value>mycluster</value>                                  //nameservice ID
          </property>
        - namenode配置:
          <property>
            <name>dfs.ha.namenodes.mycluster</name>
            <value>nn1,nn2</value>                                    //两个namenode的名称
          </property>
        - nameNode的rpc协议具体配置:(修改两个namenode的value值)
          <property>
            <name>dfs.namenode.rpc-address.mycluster.nn1</name>       //注意nameservice ID要一致
            <value>machine1.example.com:8020</value>                  //第一个namenode的配置
          </property>
          <property>
            <name>dfs.namenode.rpc-address.mycluster.nn2</name>      
            <value>machine2.example.com:8020</value>                   //第二个namenode的配置
          </property>
        - namenode的http协议的具体配置:(修改两个namenode的value值)
          <property>
            <name>dfs.namenode.http-address.mycluster.nn1</name>
            <value>machine1.example.com:50070</value>                   //第一个namenode的配置
          </property>
          <property>
            <name>dfs.namenode.http-address.mycluster.nn2</name>
            <value>machine2.example.com:50070</value>                   //第二个namenode的配置
          </property>
        - edits文件的共享目录:
          <property>
            <name>dfs.namenode.shared.edits.dir</name>
                <value>qjournal://node1.example.com:8485;node2.example.com:8485;node3.example.com:8485/mycluster</value>
          </property>
        - java连接NameNode的配置:基本不用修改
          <property>
            <name>dfs.client.failover.proxy.provider.mycluster</name>
                    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
            </property>
            - <property>
                <name>dfs.ha.fencing.methods</name>
                <value>sshfence</value>
              </property>
              <property>
                <name>dfs.ha.fencing.ssh.private-key-files</name>
                <value>/home/exampleuser/.ssh/id_rsa</value>                    //私钥目录
              </property>
        - 配置journalnode的数据存放目录:
        - 
          <property>
            <name>dfs.journalnode.edits.dir</name>
            <value>/path/to/journal/node/local/data</value>
          </property>
    #编辑 core-site.xml文件
    
        - <property>
            <name>fs.defaultFS</name>
            <value>hdfs://mycluster</value>                  //nameservice ID
          </property>
        - <property>
            <name>hadoop.tmp.dir</name>
            <value>/opt/hadoop-2.5</value>
          </property>
    # 以上是手动切换的配置,如果需要自动切换则需:
    
        - 编辑hdfs-site.xml:
             <property>
                <name>dfs.ha.automatic-failover.enabled</name>
                <value>true</value>
             </property>
        - 编辑core-site.xml:配置zoodeeper的三台服务器。(server1 server2 server3)
              <property>
                <name>ha.zookeeper.quorum</name>
                <value>zk1.example.com:2181,zk2.example.com:2181,zk3.example.com:2181</value>
              </property>
    

    (3)首先启动journaynode。(确保配置文件在各个服务器上都配置好)确保journalnode启动成功,才进行下面的步骤。
    # 命令:hadoop-daemon.sh start journalnode
    # 查看journalnode的日志,看看是否有错。
    (4)同步两台namenode中的元数据。
    # 首先任意格式化一个namenode,命令:hdfs namenode -format
    # 然后把格式化后的namenode中的目录数据拷贝到另一台namenode中。/opt/hadoop-2.5
    (5)初始化zookeeper。(在任意一个namenode中)
    # 命令:hdfs zkfc -formatZK
    (6)在免密码登陆的服务上,启动服务。
    # 命令: start-dfs.sh
    - 分别启动两个namenode 三个datanode 三个journalnnode 两个zookeeper。检查启动的信息。
    # 单独启动节点的命令:
    hadoop-daemon start datanode
    zkServer.sh start
    (7)检查:
    # 分别用浏览器登录namenode的50070端口查看。
    # 查看standby的namenode能否接管,强制关掉actived的namenode。
    (8)注意:
    # 注意让namenode的两个机器都能互相免密码登陆。
    # 出错看日志。

    14.熟悉hdfs hadoop-daemon start-dfs.sh等命令。

    15.MapReduce:离线的分布式计算框架。

    (1)设计概念:移动计算,不是移动数据。
    (2)步骤:
    # input 输入数据
    # splitting 分割block数据。
    # Mapping 输出key-value的值,负责把复杂的任务分解为若干个简单的任务执行。(数据规模小,就近计算,小任务并行计算)
    # shuffling 复制/排序/合并等
    # reducing 操作,对mapping数据进行汇总(默认是一个)
    # output 输出。
    (3)shuffler:
    # input->map->buffer in memory->partitioin,sort,spill to disk->merge on disk->fetch->sort/group->reduce->output
    - buffer in memory:把数据读到内存,当达到阈值后,就存在磁盘中。
    - partitioin:计算分区号,默认是做key的hash值做取模运算。
    - sort:排序。对maptask输出数据进行排序。默认排序算法是key值的字典(ASCII)排序。
    - spill to disk:溢出到磁盘,内存中数据达到阈值,就存到磁盘中。
    - merge on disk:在磁盘中合并
    - fetch:把第一阶段合并的数据抓到(根据分区号)reduce的前处理中。可以被抓到各个reduce的task中去。
    - sort/group:排序,使用默认算法。然后分组(根据键是否相等)。
    - reduce:每组(排序后)数据都会传到reduce中进行计算。
    - output:输出结果。
    # conbiner:默认不执行,作用是把键相同的值累加,有分组的效果。所以执行这个操作会导致分组操作执行两次。
    (4)split的大小:
    # 公式:max(min.split,min(max.split,block))
    - min.split:10M
    - max.split:100M
    - block: 64M
    # 以上值为默认值。
    (5)运行环境:YARN。
    # 简介:hadoop2.x的运行环境,包括Resource Manager/Node Manager(container,App Mstr)
    # 详细过程见官方文档。

    16.YARN配置:

    # 编辑yarn-site.xml.
        -  <property>
              <name>yarn.resourcemanager.ha.enabled</name>
              <value>true</value>
           </property>
           <property>
              <name>yarn.resourcemanager.cluster-id</name>
              <value>cluster1</value>
           </property>
           <property>
              <name>yarn.resourcemanager.ha.rm-ids</name>                 //配置两个resource manager
              <value>rm1,rm2</value>
           </property>
           <property>
              <name>yarn.resourcemanager.hostname.rm1</name>              //配置第一个resource manager
              <value>master1</value>
           </property>
           <property>
              <name>yarn.resourcemanager.hostname.rm2</name>              //配置第二个resource manager
              <value>master2</value>
           </property>
           <property>
              <name>yarn.resourcemanager.zk-address</name>            //配置zookeeper
              <value>zk1:2181,zk2:2181,zk3:2181</value>
           </property>
    # 编辑mapred-site.xml
        - <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
          </property>
    # 编辑yarn-site.xml
        - <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
          </property>
    # 启动:
        - 命令:start-yarn.sh
        - 启动备用resource manager:yarn-daemon.sh start resourcemanager
    # 检测:
        - 访问主节点8088端口。查看信息
        - 访问备用的主节点8088端口。查看信息,会重定向到主节点的页面。
    

    17.执行。

    # 第一种方式:服务器环境:(需要src下放置hadoop的配置文件)
        - 1.hadoop jar 包名 执行类名(加上打包的名)
        - 2.服务器环境第二种方式:(企业使用)
            * 把jar包直接放在本地上
            * 修改hadoop的源码,注意:确保项目的lib需要真实安装的jdk的lib
            * 增加一个属性:
                config.set("mapred.jar","jar包所在的路径");
            * 本地执行main方法,servlet调用MR
    # 第二种方式:本地测试环境:
        - 在hadoop目录下的bin目录中添加winutils.exe
        - 在window下配置hadoop的环境变量
        - 修改hadoop的源码,注意:确保项目的lib需要真实安装的jdk的lib
        - MR调用的代码需要改变:
            * src不能有服务器的hadoop配置文件
            * 在调用时使用:
                Configuration config = new Configuration();
                config.set("fs.defaultFS",“hdfs://node7:8020”);               //指定namenode的主机名和端口号
                config.set("yarn.resourcemanager.hostname",node7);             //指定resourcemanager的主机名和端口号
    
    展开全文
  • Hadoop学习总结

    千次阅读 2017-12-09 17:07:13
    Hadoop学习总结

    前面几篇文章基本包括了Hadoop的主要基础内容,可以看到,Hadoop的关键部分主要就是MapReduce计算框架以及HDFS分布式文件系统,资源管理主要通过YARN进行。更加深入的内容,需要在工作和项目中历练,遇到问题寻求解决方案。


    今天的文章主要从更加宏观的角度,对Hadoop进行一下总结。其中一些是自己的思考,一些是网上的意见,希望对大家将来使用和深入学习Hadoop有所帮助。


    抛开Hadoop的各类框架,我们先来看看Hadoop本身具有的模块。Hadoop主要用来进行大数据的存储和分析,存储使用HDFS,分析则使用MapReduce。


    HDFS是无可厚非的目前使用最为广泛的分布式文件系统,无论HBase还是Hive等等框架,底层依然是HDFS,它们所做的只是使得HDFS的操作方式更加多元化。


    Hadoop的衰弱则主要体现在MapReduce部分,这主要是由于MapReduce是一个批处理系统,它不适合于处理交互式分析。MapReduce只能处理离线数据,也就是存储在磁盘上的数据。这样的方式不是很适合于当前的应用。所以Spark作为一个新的框架应运而生,而它只是取代了MapReduce的部分。所以,不应该说Spark的出现就让Hadoop失去了生存环境——Spark只是替换了MapReduce,而Spark必须在Hadoop的环境才能更好的生存,才能体现它的价值。


    Hadoop比较适合于处理数据量为PB级的数据,这对于当前一般的企业,恐怕很难达到。所以也导致Hadoop真正的使用面并不是很广,不过国内BAT都在使用,另外,移动联通以及银行也在使用。


    所以,是否使用Hadoop是由你的数据量决定的,而是否需要使用某个框架,是由你的架构以及业务需求决定的。如果只有GB级的数据,完全没有必要使用Hadoop,使用数据库系统就能很好地解决问题。


    那么,Hadoop的框架主要有哪些呢?分别起到了什么样的作用?下面给出简单的介绍,我也在学习中,不是所有的都有了解,需要的时候,我们再去学习吧,但是至少应该知道我们有哪些工具可以使用。


    Avro:Avro是一个独立于编程语言的数据序列化系统。Avro数据用一种模式语言定义,这种模式语言类似于JSON,Avro解析模式语言的数据描述,可以执行序列化和反序列化。这样就使得数据更加独立,不依赖于使用数据的平台和编程语言。我们可以将数据通过Avro写入HDFS,也可以从HDFS读取出来。


    Flume:Flume类似于连接Hadoop中各个组件的管道,管道中输送的是流式的数据,使用Flume可以优化数据的传输。


    Sqoop:实现数据在关系型数据库和HDFS之间的双向传输。


    Pig:让你可以使用类似于SQL的方式(Pig称之为Pig Latin)来访问HDFS上的数据。


    Hive:Pigs Latin只能说是类似于SQL的方式,使用Hive则是完全使用和SQL基本一样的语句。


    HBase:如果说Hive提供了一种操作HDFS的类SQL的方式,HBase就是提供了一种操作HDFS的类NoSQL的方式。


    Spark:这个就是前面提到的代替MapReduce的家伙,其最大的优点就是计算在内存中进行,这使得计算速度得到极大地提高,不过还是要清楚,Spark只是一个计算框架,它不依赖于具体的集群。所以有些人说Spark革了Hadoop的命有点极端,只能说,Hadoop的MapReduce可以用Spark替换。


    ZooKeeper:Hadoop的分布式协调服务。另外,还可以让你的系统对失败进行正确的处理。


    以上就是一些常用的Hadoop框架,它们针对大数据处理各个方面的问题提供了解决方式。我们在需要时,可以优先考虑它们,如果使用某个组件可以很好地解决我们的问题,当然是最好不过的。


    从上面可以看出,Hadoop依然是大数据处理的优选框架,虽然我们不一定有机会从事Hadoop相关的职业,但是,了解一些这个领域的知识还是获益匪浅,至少让我们的工具箱中多了一样工具,毕竟在这个数据量爆炸式增长的世界,我们谁也无法保证当前正在开发或者维护的系统不会达到这样的数据量。


    展开全文
  • hadoop学习网站

    2017-08-12 21:30:57
    hadoop 学习网站
  • Hadoop学习随笔

    千次阅读 2017-12-12 21:58:55
    Hadoop学习随笔Hadoop项目主要包括以下四个模块◆ Hadoop Common: 为其他Hadoop模块提供基础设施 ◆ Hadoop HDFS: 一个高可靠、高吞吐量的分布式文件系统 ◆ Hadoop MapReduce: 一个分布式的离线并行计算框架 ...
  • Hadoop学习目录导航

    2018-07-12 11:21:38
    Hadoop学习第一课(虚拟机安装) Hadoop第二课(安装JDK) 学习Hadoop第三课(Hadoop安装与配置) Hadoop第四课(Hadoop初始化和测试) Hadoop学习第五课(配置ssh免密码登陆配置和ssh原理) Hadoop学习第六课...
  • Hadoop 学习环境搭建

    2018-04-12 10:42:31
    有一个 Hadoop学习环境是学习大数据技术的前提,搭建 Hadoop 的过程也是学习了解 Hadoop 技术的过程,没有 Hadoop 学习环境你怎么验证和实战?而大部分初学者要经过好几次的失败才能成功搭建起 Hadoop 平台,那么...
  • hadoop学习笔记(四):hadoop文件结构 阅读目录 hadoop完整安装目录结构: 回到顶部 hadoop完整安装目录结构: 比较重要的包有以下4个: src hadoop源码包。最核心的代码所在目录为core、hdfs和mapred,...
  • hadoop学习路线

    2017-08-07 09:52:08
    此篇文章是针对hadoop学习路线的
  • hadoop学习——Hadoop核心组件

    千次阅读 2017-11-27 11:16:11
    hadoop学习——Hadoop核心组件  下图展示了hadoop生态系统的核心组件。    下面来简单介绍各个组件的作用:  HDFS(Hadoop distribute file system)——Hadoop生态系统的基础组件Hadoop分布式...
  • hadoop学习笔记之hadoop伪分布集群搭建(一) hadoop学习笔记之hadoop伪分布集群搭建(二) hadoop学习笔记之hadoop伪分布集群搭建(三) hadoop学习笔记之hadoop伪分布集群搭建(四) hadoop学习笔记之hadoop伪...
  • Hadoop学习指南

    2015-12-29 20:39:47
    Hadoop学习指南Hadoop新手学习指导 http://www.aboutyun.com/thread-6179-1-1.html零基础学习hadoop到上手工作线路指导(初级篇) http://www.aboutyun.com/thread-6780-1-1.html零基础学习hadoop到上手工作线路...
  • Hadoop学习环境搭建

    千次阅读 2018-10-09 00:06:13
    Hadoop学习环境搭建Apache Hadoop3.1.1虚拟机环境搭建工具准备安装虚拟机Hadoop安装和配置配置Hadoop001、Hadoop002、Hadoop003互相访问配置Hadoop启动Hadoop合理的创建标题,有助于目录的生成如何改变文本的样式...
  • Hadoop学习笔记—1.初识hadoop 一、Hadoop的发展历史 二、Hadoop的基础框架 三、Hadoop的生态系统
  • hadoop学习路线图

    千次阅读 2018-12-03 15:04:09
    而对于hadoop的学习是大数据学习中的重要一个环节,于是乎有很多人想要知道hadoop学习路线图。 大致的思路是:以安装部署Apache Hadoop2.x版本为主线,来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。...
  • Hadoop学习心得

    千次阅读 2017-03-26 22:35:48
    Hadoop学习心得修改root用户登录sudo passwd root sudo vi /etc/ssh/sshd_config 将PermitRootLogin这一项改为yes sudo service ssh restart安装JDK JAVA环境配置apt-get install openjdk-7-jdkvim /etc/profile...
  • Hadoop学习笔记 --- hadoop1.0 与 hadoop 2.0架构图
  • Hadoop学习四:hadoop分布式环境搭建

    千次阅读 2016-04-08 23:34:42
    Hadoop学习四:hadoop分布式环境搭建标签(空格分隔): hadoopHadoop学习四hadoop分布式环境搭建 一环境准备 二分布式环境搭建针对克隆 三角色分配 四安装配置 一,环境准备1,删除/opt/app/hadoop-2.5.0/share/doc...
  • hadoop学习笔记4:hadoop、spark概念

    千次阅读 2017-03-04 21:01:06
    hadoop学习笔记4:hadoop、spark概念hadoop学习笔记4hadoopspark概念 hadoop 1HDFS 2MapReduce 3YARN spark1.hadoop Hadoop是一种开源的适合大数据的分布式存储和处理的平台。 Hadoop有三种不同的模式操作,分别...
  • Hadoop学习系列之Hadoop、Spark学习路线(很值得推荐) 文章出自:http://www.cnblogs.com/zlslch/p/5448857.html 1 Java基础: 视频方面:推荐毕老师《毕向东JAVA基础视频教程》。 学习hadoop不需要过度的...
  • hadoop学习笔记

    2013-08-08 00:28:31
    起源 发展过程 是什么   存在的原因 hadoop包括哪些东西 为什么要学习hadoop 学习思路 学习过程 理论与实践相结合 总结
  • Hadoop学习资料汇总

    千次阅读 2017-02-17 17:22:26
    hadoop学习资料另一个博主整理的,包括很多视频下载和书籍下载,版权问题贴个链接大家自己看吧 书籍提供下载地址仅供学习请尊重版权勿盗印 以下书目下载地址 《Learning Hadoop 2》 英文版 《Apache Hadoop YARN》...
  • hadoop 学习资源

    2014-03-11 10:32:01
    1、Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看 http://cloud21.iteye.com/blog/607175 2、关于Hadoop的两本书 -- 有电子书下载 http://caibinbupt.iteye.com/blog/418846 3、JavaEye Hadoop圈子 -- ...
  • Hadoop学习有哪些阶段?Java基础让我对编程有了更好的认识,Hadoop学习让我走进大数据世界的大门,了解到大数据的用武之地。接下来我简单给大家分享一下Hadoop学习路线。 在学习Hadoop时,主要分为两个阶段:第一...
  • Hadoop配置文档(二)这一篇是介绍Hadoop伪分布式的配置中的... Linux配置可以查看 Hadoop学习笔记(三)Linux环境配置Hadoop1.0配置介绍Hadoop的五个核心守护进程有:NameNode,SecondaryNameNode,DataNode,JobTrac
  • Hadoop学习笔记:Apache Hadoop生态系统

    千次阅读 2013-12-09 21:05:18
    Hadoop学习笔记:Apache Hadoop生态系统 作者:雨水,时间:2013-12-9 博客地址:http://blog.csdn.net/gobitan Hadoop从诞生至今已经发展成为一个大数据相关的庞大的软件生态系统。这里收集整理了跟Hadoop相关的...
  • hadoop学习中遇到的问题:hadoop拒绝连接 hadoop安装好之后,在本地浏览器输入地址http://192.168.29.134:9870,提示拒绝连接。在网上找了很多相关资料,有很多原因导致,一个是防火墙没关闭,一个是namenode没有...
  • hadoop学习【2】——hadoop安装配置

    千次阅读 2014-05-31 15:23:28
    hadoop学习【2】——hadoop安装配置 这是hadoop学习的第二步了,这次

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 33,729
精华内容 13,491
关键字:

hadoop学习