精华内容
下载资源
问答
  • hadoop集群搭建

    2018-12-04 19:24:30
    大数据hadoop单机集群的搭建的详细步骤及图片文字说明;三台虚拟机的单机系统
  • 搭建hadoop集群

    2019-04-08 21:33:30
    搭建hadoop集群之采坑记录

    搭建hadoop集群之采坑记录

    该篇文章主要记录我搭建hadoop时遇到的问题,现在越来越觉得不能水博客,不然会把别人给郁闷死。

    1. 所需要的资源链接,一开始就贴出来方便大家随时打开,随时查阅
    
    hadoop地址:http://mirrors.hust.edu.cn/apache/hadoop/common/
    java地址 : https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
    参考文章地址:https://www.linuxidc.com/Linux/2017-08/146389.htm
    https://chaoge123456.github.io/Hadoop%E5%88%86%E5%B8%83%E5%BC%8F%E9%9B%86%E7%BE%A4%E6%90%AD%E5%BB%BA.html/
    https://blog.csdn.net/Source_00/article/details/83031688
    https://blog.csdn.net/arlanhon/article/details/19920721
    
    1. 安装过程

      2.1 安装虚拟机-这个我不写,很简单
      2.2 安装Java
      安装java也很简单,只是环境变量的配置比较难。我贴上我自己的环境变量配置,大家参考。

    sudo gedit ~/.bashrc
    export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_201
    export JRE_HOME=${JAVA_HOME}/jre
    export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
    export PATH=${JAVA_HOME}/bin:$PATH
    source ~/.bashrc
    
    java -version #查看版本
    

    2.3 clone 虚拟机 ,搭建集群最少三台电脑,所以要克隆两次
    按照下面的链接进行克隆虚拟机克隆
    https://www.linuxidc.com/Linux/2015-03/114989.htm
    2.4 修改虚拟机的配置

    1. hostname
    sudo gedit /etc/hostname 
    三台虚拟机分别修改为:
    Master
    Slave1
    Slave2
    
    1. hosts 三台虚拟机都要加入
    sudo gedit /etc/hosts
    
    

    三台虚拟机

    1. 新建hadoop组,并加入用户
      建立hadoop组,并加入用户,三台都要执行操作
    //建立hadoop用户组
    sudo groupadd hadoop   #建立hadoop用户组
    sudo useradd -s /bin/bash -d /home/hduser -m hduser -g hadoop #添加hduser,指定用户目录
    sudo passwd hduser   #修改hduser用户密码
    sudo adduser hduser sudo  #赋予hduser管理员权限
    su hduser  #切换到hduser用户
    
    

    接下来所有的操作都是在hduser用户下执行
    6. 配置免密码登录
    链接中都有,没什么坑,我就不写了,写着好浪费时间啊,都是重复的,但是值得提醒一点的是,配置的过程:

    1.首先是Master,免密配置完成之后,需要ssh localhost 之后必须要exit
    2. Slave1 和Slave2也需要安装ssh,并且也要免密登录成功
    3. 从主机copy到子虚拟机的时候,注意单词拼写,大家仔细点,因为我入坑了,我还是截个图。清晰一点
    
    

    主机的ssh目录下的
    主机的ssh目录下的
    子虚拟机的
    子虚拟机
    scp 执行的命令

    scp hduser@Master:~/.ssh/id_rsa.pub ~/.ssh/hduser1_dsa.pub
    

    7.hadoop安装
    https://www.linuxidc.com/Linux/2017-08/146389.htm
    上面的链接安装过程非常完备,大家可以参考
    值得注意的是。大家先看我的安装经验,再按照他的安装

    (1) 首先在Master上安装hadoop,安装完成后,进入安装目录。步骤:
    cd /home/hduser/Downloads
    wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz/
    解压:sudo tar -zxvf hadoop-2.7.7.tar.gz -C /home/hduser/
    按照链接配置几个文件
    (2)配置环境-见下面的图片------Slave1 和Slave2在复制完成后也要配置
    
    export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_201
    export HADOOP_INSTALL=/home/hduser/hadoop-2.7.7
    export PATH=$PATH:${HADOOP_INSTALL}/bin:${HADOOP_INSTALL}/sbin:${JAVA_HOME}/bin
    (3) Master上安装完成后,即hadoop version可以后,在Master运行下面的命令,让Slave1 和Slave2也安装
    scp -r  hadoop-2.7.7/ Slave1:/home/hduser/
    scp -r  hadoop-2.7.7/ Slave2:/home/hduser/
    

    在这里插入图片描述
    第二步配置的环境效果图

    8.上面的步骤都完成后,你运行
    hadoop namenode -format
    如果失败,仔细查看报错原因,有多种,我就因为把Master写错了,搞了好久。
    仔细检查hostname
    hosts步骤
    还有hadoop那几个文件的配置
    如果报错是:

    12/10/24 16:51:41 ERROR namenode.NameNode: java.io.IOException: Cannot create directory /export/home/dfs/name/current
    

    解决办法 (建议将三个虚拟机都执行一下)

     sudo chmod -R a+w /home/hduser/hadoop-2.7.7/tmp/
    
    1. 最后运行 start-all.sh
      我运行的时候还要自己输入密码,输入几次后还是能够成功,不知道前面有没有问题,还是后面他们大佬都认为太简单了,没有写,以至于我也不知道为什么,但是结果还是正确的,有大佬看见的也可以告诉我,我这里也是记录学习过程,忘指教

    再运行 jps 查看运行结果,链接中也有。就不贴大佬们的了。
    再说一句:欢迎大家指教,指出错误

    展开全文
  • Hadoop集群搭建

    2021-08-30 17:45:06
    因为要参加比赛所以本人写了一篇博客记录一下hadoop集群的搭建,第一次搭建完全分布式,所以基本上都是完成了之后再去写这篇博客,部分内容不可以以图片形式展现了,实在抱歉。 三台机器分别为ahdsj2020amaster,...

    因为要参加比赛所以本人写了一篇博客记录一下hadoop集群的搭建,第一次搭建完全分布式,所以基本上都是完成了之后再去写这篇博客,部分内容不可以以图片形式展现了,实在抱歉。

    三台机器分别为ahdsj2020amaster,ahdsj2020aslave1,shdsj2020aslave2

    1、下载Hadoop以及Jdk

    hadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/

    jdk下载地址:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

    需要Oracle账号密码,这里我从网上找到一个账号密码

    Oracle帐号:2696671285@qq.com
    Oracle密码:Oracle123

    2.修改用户名以及对应的IP

    vi /etc/hostname

    改为你所对应的主机名

     vi /etc/hosts

     

    修改你所规划的机器,做ip映射

    紧接着配置网络

    vi /etc/sysconfig/network-scripts/ifcfg-ens33

    注意ip一定要改成静态ip

     

    上述配置完成后重启网络

    service network restart

    3.机器安装JAVA环境,Hadoop环境

    在此之前我们需要删除系统内自带的jdk

     rpm -qa | grep java

    查看系统自带的jdk

    对部分jdk进行删除

    rpm -e --nodeps 加上我们需要删除的jdk

    依次删除

     

    将我们刚刚下载好的jdk 和hadoop进行解压

    一般默认下载到Downloads里面

     

    (1)首先我们先解压jdk到指定的目录

    将文件拷贝到/usr/lib/jvm 解压缩

    cd /home/master/Downloads

    tar -zxvf  jdk-8u301-linux-x64.tar -C /usr/lib/jvm

    这样我们就压缩到指定目录了

    (2)修改/etc/profile这个文件

    我们在最后添加如下内容

    export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_301

    export CLASSPATH=$:CLASSPATH:$JAVA_HOME/lib/

    export PATH=$PATH:$JAVA_HOME/bin

    source /etc/profile

    (3)验证

    为了验证是否压缩成功

    java -version进行验证出现下面结果即为成功

     

     

    (4)hadoop解压

          (1)在opt目录下新建一个名为hadoop的目录,并将下载得到的hadoop-2.7.1.tar.gz解压到该目录

    mkdir /opt/hadoop

    cd /home/master/Downloads

    tar -zxvf hadoop-2.7.1.tar.gz -C /opt/hadoop

          (2)新建几个目录
    在/root目录下新建几个目录,复制粘贴执行下面的命令:

    mkdir  /root/hadoop
    mkdir  /root/hadoop/tmp
    mkdir  /root/hadoop/var
    mkdir  /root/hadoop/dfs
    mkdir  /root/hadoop/dfs/name
    mkdir  /root/hadoop/dfs/data

         (3)修改etc/hadoop中的一系列配置文件(重点)

    都是在目录下进行:/opt/hadoop/hadoop-2.7.1/etc/hadoop/

       (1)修改core-site.xml
    在<configuration>节点内加入配置:

    <property>

            <name>hadoop.tmp.dir</name>

            <value>/root/hadoop/tmp</value>

            <description>Abase for other temporary directories.</description>

       </property>

       <property>

            <name>fs.default.name</name>

            <value>hdfs://ahdsj2020amaster:9000</value>

       </property>
    上述加粗内容要改成自己主机名

      (2)修改hadoop-env.sh

    将export JAVA_HOME=${JAVA_HOME}

    修改为:

    export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_301

    (3)修改hdfs-site.xml
    在<configuration>节点内加入配置:

    <property>

       <name>dfs.name.dir</name>

       <value>/root/hadoop/dfs/name</value>

       <description>Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.</description>

    </property>

    <property>

       <name>dfs.data.dir</name>

       <value>/root/hadoop/dfs/data</value>

       <description>Comma separated list of paths on the localfilesystem of a DataNode where it should store its blocks.</description>

    </property>

    <property>

       <name>dfs.replication</name>

       <value>2</value>

    </property>

    <property>

          <name>dfs.permissions</name>

          <value>false</value>

          <description>need not permissions</description>

    </property>

    (4)

    新建并且修改mapred-site.xml
    在该版本中,有一个名为mapred-site.xml的文件,复制该文件,后改名mapred-site.xml.template,命令是:
    cp ./mapred-site.xml.template ./mapred-site.xml

    修改这个新建的mapred-site.xml文件,在<configuration>节点内加入配置:

     <property>

       <name>mapred.job.tracker</name>

       <value>ahdsj2020amaster:49001</value>

    </property>

    <property>

          <name>mapred.local.dir</name>

           <value>/root/hadoop/var</value>

    </property>


    <property>

           <name>mapreduce.framework.name</name>

           <value>yarn</value>

    </property>

    (5)

    修改yarn-site.xml文件
    在<configuration>节点内加入配置(注意了,内存根据机器配置越大越好,我这里只配2个G是因为虚拟机安装测试):

    <property>

            <name>yarn.resourcemanager.hostname</name>

            <value>ahdsj2020amaster</value>

       </property>

       <property>

            <description>The address of the applications manager interface in the RM.</description>

            <name>yarn.resourcemanager.address</name>

            <value>${yarn.resourcemanager.hostname}:8032</value>

       </property>

       <property>

            <description>The address of the scheduler interface.</description>

            <name>yarn.resourcemanager.scheduler.address</name>

            <value>${yarn.resourcemanager.hostname}:8030</value>

       </property>

       <property>

            <description>The http address of the RM web application.</description>

            <name>yarn.resourcemanager.webapp.address</name>

            <value>${yarn.resourcemanager.hostname}:8088</value>

       </property>

       <property>

            <description>The https adddress of the RM web application.</description>

            <name>yarn.resourcemanager.webapp.https.address</name>

            <value>${yarn.resourcemanager.hostname}:8090</value>

       </property>

       <property>

            <name>yarn.resourcemanager.resource-tracker.address</name>

            <value>${yarn.resourcemanager.hostname}:8031</value>

       </property>

       <property>

            <description>The address of the RM admin interface.</description>

            <name>yarn.resourcemanager.admin.address</name>

            <value>${yarn.resourcemanager.hostname}:8033</value>

       </property>

       <property>

            <name>yarn.nodemanager.aux-services</name>

            <value>mapreduce_shuffle</value>

       </property>

       <property>

            <name>yarn.scheduler.maximum-allocation-mb</name>

            <value>2048</value>

            <discription>每个节点可用内存,单位MB,默认8182MB</discription>

       </property>

       <property>

            <name>yarn.nodemanager.vmem-pmem-ratio</name>

            <value>2.1</value>

       </property>

       <property>

            <name>yarn.nodemanager.resource.memory-mb</name>

            <value>2048</value>

    </property>

       <property>

            <name>yarn.nodemanager.vmem-check-enabled</name>

            <value>false</value>

    </property>

    4、克隆2台虚拟机

    这里自行百度克隆方法

    注意:一定要注意克隆完成后要进行如下操作,本人就是卡了1天这个问题导致生成的克隆机器ip地址一直和原来机器一样

     

    点击生成然后确定

    接下里打开虚拟机

    按照第2部分内容进行配置网络主机名称等等 

    接下来进行免密登录设置

    一开始每台机器都要关闭防火墙

    关闭防火墙

    systemctl stop firewalld.service 

    设置开机禁止启动

    systemctl disable firewalld.service

    ​​​​​​​

    1. 生成公钥
    ssh-keygen -t rsa
    
    1. 分发公钥

     

    ssh-copy-id ahdsj2020amaster
    ssh-copy-id ahdsj2020amaster
    ssh-copy-id ahdsj2020amaster
    

    在三个节点上重复以上命令

     

     我这里只展示部分图片

    为了验证是否成功我们ping一下

     

    6.启动集群

    因为ahdsj2020amaster是namenode,ahdsj2020aslave1和ahdsj2020aslave2都是datanode,所以只需要对ahdsj2020asmaster进行初始化操作,也就是对hdfs进行格式化。

    (1)进入到hserver1这台机器的/opt/hadoop/hadoop-2.7.1/bin目录,也就是执行命令:
     cd   /opt/hadoop/hadoop-2.7.1/bin

    执行初始化脚本,也就是执行命令:

     ./hadoop  namenode  -format

    等几秒没报错就是执行成功,格式化成功后,可以在看到在/root/hadoop/dfs/name/目录多了一个current目录,而且该目录内有一系列文件。

    2)在namenode上执行启动命令
    因为ahdsj2020amaster是namenode,ahdsj2020aslave1和ahdsj2020aslave2都是datanode,所以只需要再ahdsj2020amaster上执行启动命令即可。

    进入到ahdsj2020amaster这台机器的/opt/hadoop/hadoop-2.7.1/sbin目录

    执行初始化脚本,也就是执行命令:

     ./start-all.sh

    之后jps查看进程

    三台机器进程分别为:

     

     

    分别打开两个端口

    ip地址:50070

     

    ip地址:8088

     


    错误总结:1.本人一开始是在配置完成网络后,进行虚拟机克隆,然后免密登录,后来想到每一台机器都需要配置内容,很麻烦,因为第一次尝试完全分布式搭建,所以百度了scp方法,虽然成功了,但是麻烦了许多倍,后来就先配置完成一台机器,再进行克隆,这样免去了很多步骤,只需要配置一下剩下克隆机器的网络等就可以完成了。

    展开全文
  • HADOOP: 搭建hadoop集群

    2017-06-30 18:44:01
    参考: http://www.cnblogs.com/hunttown/p/5452159.html http://www.cnblogs.com/hunttown/p/5452138.html ...涉及到的问题: 1. hadoop集群依赖zookeeper集群. 1. 下载hadoop(cdh)和Zoo
    参考:
    http://www.cnblogs.com/hunttown/p/5452159.html
    http://www.cnblogs.com/hunttown/p/5452138.html  
    http://www.aboutyun.com/thread-9115-1-1.html  
    
    
    涉及到的问题:
    1. hadoop集群依赖zookeeper集群.
    
    
    1. 下载hadoop(cdh)和Zookeeper(cdh).
     zookeeper-3.4.5-cdh5.4.5.tar.gz, hadoop-2.6.0-cdh5.4.5.tar.gz  
    
    2. 搭建zookeeper集群.
    server.1=tsbyacehadoop1:2888:3888
    server.2=tsbyacehadoop2:2888:3888
    server.3=tsbyacehadoop3:2888:3888
    
    3. 配置hadoop.
    搭建的集群包括3台hadoop服务器, 集群规划如下:
    ![这里写图片描述](https://img-blog.csdn.net/20170630184804995?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc2lkb25neHVlMg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
    
    31. 关闭防火墙.
    [root@tsbyacehadoop1 hadoop]# service iptables stop
    iptables: Setting chains to policy ACCEPT: filter [  OK  ]
    iptables: Flushing firewall rules: [  OK  ]
    iptables: Unloading modules: [  OK  ]
    [root@tsbyacehadoop1 hadoop]# service  iptables status
    iptables: Firewall is not running.
    [root@tsbyacehadoop1 hadoop]# 
    
    32. 配置ssh互信.
    为集群中的每台服务器生成秘钥,并且拷贝到集群所有的服务器上, 注意: 包括自己。
    [root@tsbyacehadoop1 hadoop]# ssh-keygen
    Generating public/private rsa key pair.
    Enter file in which to save the key (/root/.ssh/id_rsa): 
    /root/.ssh/id_rsa already exists.
    Overwrite (y/n)? y
    Enter passphrase (empty for no passphrase): 
    Enter same passphrase again: 
    Your identification has been saved in /root/.ssh/id_rsa.
    Your public key has been saved in /root/.ssh/id_rsa.pub.
    The key fingerprint is:
    13:a8:21:ae:45:4c:eb:d5:e8:e4:9f:09:40:30:10:29 root@tsbyacehadoop1
    The key's randomart image is:
    +--[ RSA 2048]----+
    |*+o              |
    |E= . o .         |
    |. * = o .        |
    | + B o   .       |
    |  + =   S        |
    | o   o o .       |
    |.     +          |
    |                 |
    |                 |
    +-----------------+
    
    
    [root@tsbyacehadoop1 hadoop]# ssh-copy-id -i ~/.ssh/id_rsa.pub "-p 36000 root@tsbyacehadoop2"
    The authenticity of host '[tsbyacehadoop2]:36000 ([10.0.1.216]:36000)' can't be established.
    RSA key fingerprint is 23:6b:d3:a7:ca:ff:fc:42:da:bc:c5:a8:5e:8b:4f:d4.
    Are you sure you want to continue connecting (yes/no)? yes
    Warning: Permanently added '[tsbyacehadoop2]:36000,[10.0.1.216]:36000' (RSA) to the list of known hosts.
    root@tsbyacehadoop2's password: 
    Now try logging into the machine, with "ssh '-p 36000 root@tsbyacehadoop2'", and check in:
    
      .ssh/authorized_keys
    
    to make sure we haven't added extra keys that you weren't expecting.
    
    [root@tsbyacehadoop1 hadoop]# 
    配置完成后, 就可以通过ssh -p 36000 ${host_name},在不输入密码的情况下,直接连接其他服务器了.
    同时还可以通过如下指令查看当前机器包含哪些服务器的秘钥.
    [root@tsbyacehadoop1 sbin]# cat /root/.ssh/known_hosts 
    [tsbyacehadoop2]:36000,[10.0.1.216]:36000 ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAQEAovmJx91swyx3l0B2tLo397Y2BCsc6KTff0WOKQW8nEfkFTy2e/D2BV2rLmF8vPd5kzdrlDqFNODribwW98KmzSC7/wAymqHxy3ChtTSVBV9CT1tkUBIJ3eC48j2Z7Yz3y6KJ4LyhytLmwbtZHqLQMQb2hk+kF49RFc6x8nAO1l153CBmipKw9hPeuM+5hHlRXTZqOucHIgqX+H9rFU+7dALbruzhtgpRu76tx3+aa9yQrJOWjwbqEoQDzzyA04jT5B0+W4hppLZlJt+p5lr3FhVl1mWgjNbKumx/I60BEnv4dNsx8bTU00cb39Kmo+wVk4PU9vjFpZu+edErF2fPEw==
    [tsbyacehadoop3]:36000,[10.0.1.221]:36000 ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAQEAovmJx91swyx3l0B2tLo397Y2BCsc6KTff0WOKQW8nEfkFTy2e/D2BV2rLmF8vPd5kzdrlDqFNODribwW98KmzSC7/wAymqHxy3ChtTSVBV9CT1tkUBIJ3eC48j2Z7Yz3y6KJ4LyhytLmwbtZHqLQMQb2hk+kF49RFc6x8nAO1l153CBmipKw9hPeuM+5hHlRXTZqOucHIgqX+H9rFU+7dALbruzhtgpRu76tx3+aa9yQrJOWjwbqEoQDzzyA04jT5B0+W4hppLZlJt+p5lr3FhVl1mWgjNbKumx/I60BEnv4dNsx8bTU00cb39Kmo+wVk4PU9vjFpZu+edErF2fPEw==
    [tsbyacehadoop1]:36000,[10.0.1.215]:36000 ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAQEAovmJx91swyx3l0B2tLo397Y2BCsc6KTff0WOKQW8nEfkFTy2e/D2BV2rLmF8vPd5kzdrlDqFNODribwW98KmzSC7/wAymqHxy3ChtTSVBV9CT1tkUBIJ3eC48j2Z7Yz3y6KJ4LyhytLmwbtZHqLQMQb2hk+kF49RFc6x8nAO1l153CBmipKw9hPeuM+5hHlRXTZqOucHIgqX+H9rFU+7dALbruzhtgpRu76tx3+aa9yQrJOWjwbqEoQDzzyA04jT5B0+W4hppLZlJt+p5lr3FhVl1mWgjNbKumx/I60BEnv4dNsx8bTU00cb39Kmo+wVk4PU9vjFpZu+edErF2fPEw==
    ......(略)......
    同时注意: 为了安全,可以为hadoop创建专门的用户.
    useradd hadoopuser
    passwd hadoopuser
    su - hadoopuser
    补充:
    配置ssh互信的目的是: name node节点支持远程启动其他服务器的hadoop程序。
    
    33. 配置hadoop-env.sh文件.
    # The java implementation to use.
    #export JAVA_HOME=$JAVA_HOME                 
    export JAVA_HOME=/usr/local/jdk/jdk1.8.0_73        
    export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0-cdh5.4.5
    export  PATH=$PATH:$HADOOP_HOME/bin
    export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
    export HADOOP_SSH_OPTS="-p 36000"
    注意: 这里的JAVA_HOME需要配置为全路径, 不能用$JAVA_HOME, 否则会报错误, 下面会提到.
    还有就是export HADOOP_SSH_OPTS="-p 36000"里的端口必须配置正确, 否则会有问题.
    
    34. 配置hdfs-site.xml文件.
    [root@master hadoop]# cat hdfs-site.xml 
    ...(略)...
    <configuration>
    <property>
      <name>dfs.nameservices</name>
      <value>mycluster</value>
      <description>
        Comma-separated list of nameservices.
      </description>
    </property>
    
    <property>
      <name>dfs.datanode.address</name>
      <value>0.0.0.0:50010</value>
      <description>
        The datanode server address and port for data transfer.
        If the port is 0 then the server will start on a free port.
      </description>
    </property>
    
    <property>
      <name>dfs.datanode.http.address</name>
      <value>0.0.0.0:50075</value>
      <description>
        The datanode http server address and port.
        If the port is 0 then the server will start on a free port.
      </description>
    </property>
    
    <property>
      <name>dfs.datanode.ipc.address</name>
      <value>0.0.0.0:50020</value>
      <description>
        The datanode ipc server address and port.
        If the port is 0 then the server will start on a free port.
      </description>
    </property>
    
    <property>
      <name>dfs.namenode.name.dir</name>
      <value>file:/root/toushibao/data/namenode</value>
      <description>Determines where on the local filesystem the DFS name node should store the name table.If this is a comma-delimited list of directories,then name table is replicated in all of the directories,for redundancy.</description>
      <final>true</final>
     </property>
    
     <property>
      <name>dfs.namenode.edits.dir</name>
      <value>file:/root/toushibao/data/hdfs/edits</value>
      <description>Determines where on the local filesystem the DFS name node
          should store the transaction (edits) file. If this is a comma-delimited list
          of directories then the transaction file is replicated in all of the 
          directories, for redundancy. Default value is same as dfs.namenode.name.dir
      </description>
    </property>
    
     <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/root/toushibao/data/datanode</value>
        <description>Determines where on the local filesystem an DFS data node should store its blocks.If this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exist are ignored.
        </description>
        <final>true</final>
     </property>
    
     <property>
        <name>dfs.replication</name>
        <value>2</value>
     </property>
    
     <property>
        <name>dfs.permission</name>
        <value>true</value>
     </property>
    
    <property>
      <name>dfs.datanode.hdfs-blocks-metadata.enabled</name>
      <value>true</value>
      <description>
        Boolean which enables backend datanode-side support for the experimental DistributedFileSystem#getFileVBlockStorageLocations API.
      </description>
    </property>
    
    <property>
      <name>dfs.permissions.enabled</name>
      <value>false</value>
      <description>
        If "true", enable permission checking in HDFS.
        If "false", permission checking is turned off,
        but all other behavior is unchanged.
        Switching from one parameter value to the other does not change the mode,
        owner or group of files or directories.
      </description>
    </property>
    
    <property>
      <name>dfs.ha.namenodes.mycluster</name>
      <value>nn1,nn2</value>
    <description></description>
    </property>
    
    <property>
      <name>dfs.namenode.rpc-address.mycluster.nn1</name>
      <value>master:9000</value>
      <description></description>
    </property>
    
    <property>
      <name>dfs.namenode.rpc-address.mycluster.nn2</name>
      <value>slave1:9000</value>
      <description></description>
    </property>
    
    <property>
      <name>dfs.namenode.http-address.mycluster.nn1</name>
      <value>master:50070</value>
      <description></description>
    </property>
    
    <property>
      <name>dfs.namenode.http-address.mycluster.nn2</name>
      <value>slave1:50070</value>
      <description></description>
    </property>
    
    <property>
      <name>dfs.namenode.shared.edits.dir</name>
      <value>qjournal://master:8485;slave1:8485;slave2:8485;/test</value>
      <description></description>
    </property>
    
    <property>
      <name>dfs.journalnode.edits.dir</name>
      <value>/root/toushibao/data/journaldata/jn</value>
      <description></description>
    </property>
    
    <property>
      <name>dfs.journalnode.rpc-address</name>
      <value>0.0.0.0:8485</value>
    </property>
    
    <property>
      <name>dfs.journalnode.http-address</name>
      <value>0.0.0.0:8480</value>
    </property>
    
    <property>
      <name>dfs.client.failover.proxy.provider.mycluster</name>
      <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
      <description></description>
    </property>
    
    <property>
      <name>dfs.ha.fencing.methods</name>
      <value>shell(/bin/true)</value>
    </property>
    
    <property>
      <name>dfs.ha.fencing.ssh.connect-timeout</name>
      <value>10000</value>
    </property>
    
    <property>
      <name>dfs.ha.automatic-failover.enabled</name>
      <value>true</value>
      <description>
        Whether automatic failover is enabled. See the HDFS High
        Availability documentation for details on automatic HA
        configuration.
      </description>
    </property>
    
    <property>
      <name>ha.zookeeper.quorum</name>
      <value>master:2181,slave1:2181,slave2:2181</value>
      <description></description>
    </property>
    
    <property>
      <name>dfs.blocksize</name>
      <value>64m</value>
      <description>
          The default block size for new files, in bytes.
          You can use the following suffix (case insensitive):
          k(kilo), m(mega), g(giga), t(tera), p(peta), e(exa) to specify the size (such as 128k, 512m, 1g, etc.),
          Or provide complete size in bytes (such as 134217728 for 128 MB).
      </description>
    </property>
    
    <property>
            <name>dfs.datanode.max.transfer.threads</name>
            <value>8192</value>        
    </property>
    <property>  
      <name>dfs.client.socket-timeout</name>  
      <value>600000</value>  
    </property>
    </configuration>
    
    35. 配置core-site.xml文件.
    [root@tsbyacehadoop1 hadoop]# cat core-site.xml 
    ...(略)...
    <configuration>
    
    <!-- 如下的value来自hdfs-site.xml文件-->
    <property>
      <name>fs.defaultFS</name>
      <value>hdfs://mycluster</value>
      <description>The name of the default file system.  A URI whose
      scheme and authority determine the FileSystem implementation.  The
      uri's scheme determines the config property (fs.SCHEME.impl) naming
      the FileSystem implementation class.  The uri's authority is used to
      determine the host, port, etc. for a filesystem.</description>
    </property>
    
    <property>
      <name>hadoop.tmp.dir</name>
      <value>/data/hadoop/tmp</value>
      <description>A base for other temporary directories.</description>
    </property>
    
    <property>
      <name>io.native.lib.available</name>
      <value>true</value>
      <description>Should native hadoop libraries, if present, be used.</description>
    </property>
    
    <property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>
    
    <property>
      <name>io.compression.codecs</name>
     <value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.Lz4Codec,org.apache.hadoop.io.compress.SnappyCodec</value>
      <description>A comma-separated list of the compression codec classes that can
      be used for compression/decompression. In addition to any classes specified
      with this property (which take precedence), codec classes on the classpath
      are discovered using a Java ServiceLoader.</description>
    </property>
    </configuration>
    
    36. 配置yarn-env.sh文件. 
    在yarn-env.sh文件的开头加入:  export JAVA_HOME=/usr/local/jdk/jdk1.8.0_73
    
    37. 配置yarn-site.xml文件. 
    注意: yarn也可以配置为高可用的.
    [root@tsbyacehadoop1 hadoop]# cat yarn-site.xml 
    ...(略)...
    <configuration>
    
    <!-- Site specific YARN configuration properties -->
    <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>6144</value>
    </property>
    <property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>2048</value>
    </property>
    <property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>6144</value>
    </property>
     <property>  
           <name>yarn.nodemanager.aux-services</name>  
           <value>mapreduce_shuffle</value>  
        </property>  
        <property>                                                                 
           <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>  
           <value>org.apache.hadoop.mapred.ShuffleHandler</value>  
        </property>  
        <property>  
           <name>yarn.resourcemanager.address</name>  
            <value>tsbyacehadoop1:8032</value>  
        </property>  
        <property>  
            <name>yarn.resourcemanager.scheduler.address</name>  
            <value>tsbyacehadoop1:8030</value>  
        </property>  
        <property>  
           <name>yarn.resourcemanager.resource-tracker.address</name>  
            <value>tsbyacehadoop1:8031</value>  
        </property>  
        <property>  
           <name>yarn.resourcemanager.admin.address</name>  
            <value>tsbyacehadoop1:8033</value>  
        </property>  
        <property>  
           <name>yarn.resourcemanager.webapp.address</name>  
            <value>tsbyacehadoop1:8088</value>  
        </property>
    
             <property>
                    <name>yarn.scheduler.minimum-allocation-vcores</name>
                    <value>1</value>
            </property> 
            <property>
                    <name>yarn.scheduler.maximum-allocation-vcores</name>
                    <value>8</value>
            </property>
    <property>
    <name>yarn.resourcemanager.am.max-attempts</name>
    <value>3</value>
    </property>
    
    <property>
    <name>yarn.nm.liveness-monitor.expiry-interval-ms</name>
    <value>60000</value>
    </property>
    
    <property>
    <name>yarn.nodemanager.recovery.enabled</name>
    <value>true</value>
    </property>
    
    <property>
    <name>yarn.nodemanager.address</name>
    <value>0.0.0.0:45454</value>
    </property>
    
    <property>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>3.5</value>
    </property>
    <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
    </property>
    </configuration> 
    
    38. 配置slaves文件. 
    [root@tsbyacehadoop1 hadoop]# cat slaves 
    tsbyacehadoop2
    tsbyacehadoop3
    
    39.分发程序.
    修改完一台hadoop集群的所有配置后, scp到其他两台hadoop服务器上。
    
    4. 启动hadoop集群.
    41. 启动JournalNode.
    [root@tsbyacehadoop1 sbin]# ./hadoop-daemon.sh start journalnode
    starting journalnode, logging to /usr/local/hadoop/hadoop-2.6.0-cdh5.4.5/logs/hadoop-root-journalnode-tsbyacehadoop1.out
    [root@tsbyacehadoop1 sbin]# jps
    2217 JournalNode
    2268 Jps
    1582 QuorumPeerMain
    停止journalnode.
    [root@tsbyacehadoop1 sbin]# ./hadoop-daemon.sh stop journalnode
    stopping journalnode
    
    42. NameNode格式化.
    [root@tsbyacehadoop1 bin]# ./hdfs namenode -format
    16/11/24 17:23:54 INFO namenode.NameNode: STARTUP_MSG: 
    /************************************************************
    STARTUP_MSG: Starting NameNode
    STARTUP_MSG:   host = tsbyacehadoop1/10.0.1.215
    STARTUP_MSG:   args = [-format]
    STARTUP_MSG:   version = 2.6.0-cdh5.4.5
    STARTUP_MSG:   classpath = /usr/local/hadoop/hadoop-2.6.0-cdh5.4.5/etc/hadoop
    ......(略)......
    
    格式化结束后, 将元数据同步到tsbyacehadoop2(注意: namenode只安装在tsbyacehadoop1和tsbyacehadoop2上).
    [root@tsbyacehadoop1 bin]#  scp -P 36000 -r /data/hadoop root@tsbyacehadoop2:/data/hadoop
    VERSION                                                                                                      100%  155     0.2KB/s   00:00    
    in_use.lock                                                                                                  100%   19     0.0KB/s   00:00    
    seen_txid                                                                                                    100%    2     0.0KB/s   00:00    
    VERSION                                                                                                      100%  203     0.2KB/s   00:00    
    fsimage_0000000000000000000.md5                                                                              100%   62     0.1KB/s   00:00    
    fsimage_0000000000000000000                                                                                  100%  351     0.3KB/s   00:00    
    seen_txid                                                                                                    100%    2     0.0KB/s   00:00    
    VERSION                                                                                                      100%  203     0.2KB/s   00:00    
    [root@tsbyacehadoop1 bin]# 
    
    43. 初始化zkfc.
    注意: 如果hdfs-site.xml文件中的zookeeper配置错误的话,这步会失败.
    [root@tsbyacehadoop1 bin]# ./hdfs zkfc -formatZK
    16/11/24 17:25:32 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    16/11/24 17:25:32 INFO tools.DFSZKFailoverController: Failover controller configured for NameNode NameNode at tsbyacehadoop1/10.0.1.215:9000
    16/11/24 17:25:32 INFO zookeeper.ZooKeeper: Client environment:zookeeper.version=3.4.5-cdh5.4.5--1, built on 08/12/2015 21:04 GMT
    16/11/24 17:25:32 INFO zookeeper.ZooKeeper: Client environment:host.name=tsbyacehadoop1
    
    44. 启动集群.
    注意:  ./start-all.sh指令已经不建议使用了, 替代的是start-dfs.sh and start-yarn.sh.
    [root@tsbyacehadoop1 sbin]# ./start-all.sh
    This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
    
    Hadoop安装配置完成后, 启动时报Error: JAVA_HOME is not set and could not be found.
    [root@tsbyacehadoop1 sbin]# ./start-dfs.sh
    16/11/24 17:27:06 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    Starting namenodes on [tsbyacehadoop1 tsbyacehadoop2]
    The authenticity of host '[tsbyacehadoop1]:36000 ([10.0.1.215]:36000)' can't be established.
    RSA key fingerprint is 23:6b:d3:a7:ca:ff:fc:42:da:bc:c5:a8:5e:8b:4f:d4.
    Are you sure you want to continue connecting (yes/no)? tsbyacehadoop2: Error: JAVA_HOME is not set and could not be found.
    解决办法: 修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME,  应当使用绝对路径
    export JAVA_HOME=$JAVA_HOME                        //错误.
    export JAVA_HOME=/usr/local/jdk/jdk1.8.0_73        //正确.
    
    修改完集群中的所有hadoop服务器后,  再次启动集群,报如下错误:
    [root@tsbyacehadoop1 sbin]# ./start-dfs.sh
    16/11/24 17:33:06 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    Starting namenodes on [tsbyacehadoop1 tsbyacehadoop2]
    The authenticity of host '[tsbyacehadoop1]:36000 ([10.0.1.215]:36000)' can't be established.
    RSA key fingerprint is 23:6b:d3:a7:ca:ff:fc:42:da:bc:c5:a8:5e:8b:4f:d4.
    Are you sure you want to continue connecting (yes/no)? tsbyacehadoop2: starting namenode, logging to /usr/local/hadoop/hadoop-2.6.0-cdh5.4.5/logs/hadoop-root-namenode-tsbyacehadoop2.out
    
    tsbyacehadoop1: Host key verification failed.
    解决方法: 原因是tsbyacehadoop1连接自己时需要密码,所以也要将自己的公钥写到known_hosts文件中.
    
    再次启动, 启动成功了.可以通过界面访问: http://10.0.1.215:50070

    这里写图片描述

    45.启动YARN.
    通过 ./start-yarn.sh指令启动yarn,发现yarn没有启动成功,通过查看/usr/local/hadoop/hadoop-2.6.0-cdh5.4.5/logs日志, 发现如下错误:
    2016-11-25 11:10:42,745 INFO org.apache.hadoop.service.AbstractService: Service org.apache.hadoop.yarn.server.resourcemanager.AdminService failed in state STARTED; cause: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.IOException: Failed on local exception: java.net.SocketException: Unresolved address; Host Details : local host is: "tsbyacehaoop1"; destination host is: (unknown):0; 
    org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.IOException: Failed on local exception: java.net.SocketException: Unresolved address; Host Details : local host is: "tsbyacehaoop1"; destination host is: (unknown):0; 
            at org.apache.hadoop.yarn.factories.impl.pb.RpcServerFactoryPBImpl.getServer(RpcServerFactoryPBImpl.java:139)
            at org.apache.hadoop.yarn.ipc.HadoopYarnProtoRPC.getServer(HadoopYarnProtoRPC.java:65)
            at org.apache.hadoop.yarn.ipc.YarnRPC.getServer(YarnRPC.java:54)
    解决方案是: 修改yarn-site.xml文件中的错误配置.
    
    重新启动yarn,没有问题了.
    [root@tsbyacehadoop1 sbin]# ./start-yarn.sh
    starting yarn daemons
    starting resourcemanager, logging to /usr/local/hadoop/hadoop-2.6.0-cdh5.4.5/logs/yarn-root-resourcemanager-tsbyacehadoop1.out
    tsbyacehadoop2: nodemanager running as process 5542. Stop it first.
    tsbyacehadoop3: nodemanager running as process 3786. Stop it first.
    [root@tsbyacehadoop1 sbin]# jps
    5856 NameNode
    9969 Jps
    9715 ResourceManager
    3668 JournalNode
    6165 DFSZKFailoverController
    1582 QuorumPeerMain
    可以通过界面访问: http://10.0.1.215:8088

    这里写图片描述

    展开全文
  • Hadoop集群配置

    2018-11-20 09:12:19
    Hadoop集群 准备工具: 虚拟机:VMware Workstation 12 jdk:jdk-8u141-linux-x64.tar.gz 服务器ISO:CentOS-7.iso hadoop:hadoop-2.8.4.tar.gz ssh工具:MobaXterm VMWare虚拟机建三台CentOS,网络配置为...

    集群安装

    准备工具:

    虚拟机:VMware Workstation 12
    jdk:jdk-8u141-linux-x64.tar.gz
    服务器ISO:CentOS-7.iso
    hadoop:hadoop-2.8.4.tar.gz
    ssh工具:MobaXterm
    

    VMWare虚拟机建三台CentOS,网络配置为NAT。

    hd-even-01 hd-even-02 hd-even-03

    关闭防火墙:systemctl stop firewalld

    禁止开机启动:systemctl disable firewalld

    查看防火墙状态:firewall-cmd --state

    默认在hd-even-01配置

    1. 设置静态Ip,以免开机后ip重新分配。(注意:ifcfg-eno16777736不固定,ifcfg-e+tab键自动出现本机的)

    vi /etc/sysconfig/network-script/ifcfg-eno16777736
    

    注释BOOTPROTO="DHCP"这一行

    #BOOTPROTO="DHCP"
    

    添加内容:

    IPADDR=192.168.35.129
    NETMASK=255.255.255.0
    GATEWAY=192.168.85.2
    DNS1=101.198.198.198
    

    三个服务器都要配置

    IPADDR是服务器本身的IP,网关看虚拟机的网络配置,DNS1从主机的DNS选一个,查看windows DNS的命令:ipconfig /all

    2.设置hostname,hd-even-01 hd-even-02 hd-even-03都要设置,修改/etc/hostname

    vi /etc/hostname
    

    3.在hd-even-01 设置hosts,修改/etc/hosts

    vi /etc/hosts
    ip hostname 的形式:
    
    192.168.35.128 hd-even-01
    192.168.35.129 hd-even-02
    192.168.35.130 hd-even-03
    

    service network restart #使网络生效

    ** 4.在hd-even-01 设置ssh免密**

    ssh-keygen //一直回车
    ssh-copy-id 自己IP
    ssh-copy-id其他IP
    

    5.分发hosts,把配置分发给其他服务器,就不用每台都重新配置。

    scp -r /etc/hosts hd-even-02:/etc/
    scp -r /etc/hosts hd-even-03:/etc/
    

    6.本机(windows系统)设置host,c:/window/System32/drivers/etc/hosts

    内容和步骤3一样。
    

    ** 7.下载MobaXterm**

    用主机名来连接三台服务器,具体怎么使用自行百度
    

    8. 上传jdk.tar.tz到/home/even/hd

    解压jdk
    tar -zxvf jdk.tar.tz
    
    rm jdk.tar.tz
    

    9.配置环境变量

    vi /etc/profile
    
    export JAVA_HOME=/home/even/hd
    export PATH=$PATH:$JAVA_HOME/bin
    
    生效环境变量:
    source /etc/profile
    

    10.分发环境变量

    scp -r /home/even/hd/jdk hd-even-02:/home/even/hd/
    scp -r /home/even/hd/jdk hd-even-03:/home/even/hd/
    scp -r /etc/profile hd-even-02:/etc/
    scp -r /etc/profile hd-even-03:/etc/
    
    其他服务器也要:source /etc/profile
    

    11.上传hadoop.tar.tz到/home/even/hd

    tar -zxvf hadoop.tar.tz -C /home/even/hd/
    

    12.修改hadoop/etc/hadoop/hadoop-env.sh

    export JAVA_HOME=/home/even/hd/jdk8
    

    13.修改etc/hadoop/core-site.xml

    <configuration>
    	<property>
    	<name>fs.defaultFS</name>
    	<value>hdfs://hd-even-01:9000</value>
    	</property>
    </configuration>
    

    14.修改hdfs-site.xml

    <configuration>
    	//配置元数据存储位置
    	<property>
    	<name>dfs.namenode.name.dir</name>
    	<value>/home/even/hd/dfs/name</value>
    	</property>
    	//配置数据存储位置
    	<property>
    	<name>dfs.datanode.data.dir</name>
    	<value>/home/even/hd/dfs/data</value>
    	</property>
    </configuration>
    

    15.配置hadoop的环境变量

    vi /etc/profile
    
    export HADOOP_HOME=/home/even/hd/hadoop-2.8.4
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    
    source /etc/profile
    

    16.格式化namenode

    hadoop namenode -format
    
    会在上面hdfs-site配置的namenode目录下生成对应的文件夹,包含namenode的文件
    

    17.分发hadoop到其他服务器,避免重复配置

    scp -r /home/even/hd/hadoop hd-even-02:/home/even/hd/
    scp -r /home/even/hd/hadoop hd-even-03:/home/even/hd/
    scp -r /etc/profile hd-even-02:/etc
    scp -r /etc/profile hd-even-03:/etc
    
    source /etc/profile
    

    18.在hd-even-01启动namenode

    hadoop-daemon.sh start namenode
    
    jps查看进程
    

    19.在hd-even-02 hd-even-03启动datanode

    hadoop-daemon.sh start datanode
    

    20.本机访问http://hd-even-01:50070

    一键启动集群

    修改hd-even-01的hadoop目录/etc/hadoop/slaves,添加datanode的主机号hd-even-02,hd-even-03
    一键启动集群命令:start-dfs.sh
    一键关闭集群命令:stop-dfs.sh
    

    修改SecondaryNameNode的位置,SecondaryNameNode作用:合并镜像文件和备份镜像文件

    修改hdfs-site.xml,添加:
    <property>
    	<name>dfs.namenode.secondary.http-address</name>
    	<value>hd-even-02:50090</value>
    	<description>
    			The secondary namenode http server address and port.
    	</description>
    </property>
    

    基本命令

    在NameNode服务器操作:

     hdfs dfs -help									#查看帮助
     hdfs dfs -ls /									#查看当前目录信息
     hdfs dfs -put /本地路径 /hdfs路径				#上传文件
     上传的文件可以通过网页形式查看,IP是NameNode的Host
     http://192.168.11.136:50070/explorer.html#/
    
    Replication是副本数的意思,默认为3。
    
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20181204095711935.png)
    
    可以通过修改hdfs-site.xml文件来改变块大小和副本数
    
    <property>
      <name>dfs.replication</name>
      <value>3</value>
      <description>Default block replication. 
      The actual number of replications can be specified when the file is created.
      The default is used if replication is not specified in create time.
      </description>
    </property>
    
    block大小,文件块大小
    <property>
      <name>dfs.blocksize</name>
      <value>134217728</value>
      <description>
          The default block size for new files, in bytes.
          You can use the following suffix (case insensitive):
          k(kilo), m(mega), g(giga), t(tera), p(peta), e(exa) to specify the size (such as 128k, 512m, 1g, etc.),
          Or provide complete size in bytes (such as 134217728 for 128 MB).
      </description>
    </property>
    
    hdfs dfs -moveFromLocal a.txt /aa.txt				#剪切文件
    hdfs dfs -get /hdfs路径 /本地路径					#下载文件到本地
    hdfs dfs -getmerge /hdfs路径文件夹 /合并后的文件		#合并下载
    hdfs dfs -mkdir /文件夹名							#创建文件夹
    hdfs dfs -mkdir -p /hunterter/henshuai			#创建多级文件夹
    hdfs dfs -mv /hdfs路径 /hdfs路径					#移动hdfs文件
    hdfs dfs -cp /hdfs路径 /hdfs路径					#复制hdfs文件
    hdfs dfs -rm /aa.txt								#删除hdfs文件
    hdfs dfs -rm -r /hunterter							#删除hdfs文件夹
    hdfs dfs -cat /文件									#查看hdfs中的文件
    hdfs dfs -tail -f /文件								#查看hdfs中的文件
    hdfs dfs -count /文件夹								#查看文件夹中有多少个文件,四个参数:路径深度|文件数|大小|当前文件夹名
    hdfs dfs -df /										#查看hdfs的总空间
    hdfs dfs -df -h /									#查看hdfs的总空间
    hdfs dfs -setrep 1 /hdfs路径						#设置副本数,即Replication
    
    展开全文
  • 利用ubuntu搭建高可用的hadoop集群系列之五——hadoop集群搭建 1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed ...
  • Hadoop 集群搭建

    2020-04-15 15:04:17
    搭建的 hadoop 集群由 3 台服务器组成,分别叫做 master,salve1 和 slave2。其中 master 作为主节点,slave1 和 slave2 作为从节点。 二、网络配置 1.查看 3 个节点的主机名是否和规划的一致。 2.关闭 3 个节点的...
  • 启动Hadoop集群

    2019-08-13 22:41:52
    启动Hadoop集群 第一次启动前置工作 注意:首次启动 HDFS 时,必须对其进行格式化操作。本质上是一些清理和准备工作,因为此时的 HDFS 在物理上还是不存在的。(本质是对namenode进行初始化) 命令:hdfs namenode -...
  • hadoop集群安装

    2021-04-05 14:35:12
    hadoop集群安装 前沿 默认已经安装好三台虚拟机. 虚拟机安装及集群配置可以参考之前的文章 MacOS安装VMWare Fusion MacOS通过VMWare Funsion 安装Centos7 MacOs安装Centos后配置静态IP MacOs VMWare Fusion克隆...
  • hadoop集群虚拟机安装详解,用于在linux下的hadoop的建立,并详细说明过程,提供图片指导
  • Hadoop集群、Hbase集群指定ssh端口

    千次阅读 2019-12-04 09:55:20
    Hadoop集群、Hbase集群指定ssh端口 在生产环境中,为了安全起见,往往会禁掉ssh默认的22端口,分为几个步骤: 1)修改ssh的端口 vi /etc/ssh/sshd_config 在这个配置里修改端口为 port 2222 去掉上面图片显示的注释...
  • Hadoop集群和hbase集群和zookeeper集群搭建 机器安装jdk 这个参考其它文档 说明一下我是三台主机三台主机的ip是 第一台 :xx.xx.xx.171 第二台 :xx.xx.xx.172 第三台 :xx.xx.xx.173 配置主机映射 (三台机器...
  • Hadoop集群部署

    2020-11-10 20:50:56
    集群机器: node01:master node05~node10:slave节点 大致流程 选定一个节点作为master(本次部署使用node01作为master,node05~10作为slave节点) 配置节点间可以免密ssh,以及免密ssh到localhost 在所有节点安装...
  • Hadoop系列之八:Hadoop集群
  • 搭建hadoop集群环境

    2015-03-11 00:55:39
    搭建hadoop集群环境  本文通过在vmware workstation上建立三台虚拟机来搭建hadoop集群环境,其中一台作为namenode,两台作为datanode。 一、安装vmware workstation(10.0.0)(一路下一步即可) 二
  • hadoop集群环境搭建

    2019-12-16 00:17:44
    hadoop集群环境搭建 1.软件环境 Centos 7.6 : master(192.168.101.223),slave1(192.168.101.224),slave2(192.101.225) hadoop版本:hadoop-2.8.5 2.安装包下载: ...3.解压hadoop...
  • 继上周绿盟科技发布ElasticSearch专项报告以来,又监测到勒索软件正在攻击Hadoop集群,这再次表明黑客正在尝试从“大数据”中获利,绿盟科技给出的建议是关闭端口、启用安全认证机制、使用WVSS Web应用漏洞扫描等...
  • Hadoop集群的搭建

    2020-08-07 19:47:49
    Hadoop集群的搭建 MapReduce 是多进程 Spark 是多线程 1.Hadoop是什么 ​ 1)Hadoop是一个由Apache基金会所开发分布式系统基础架构 ​ 2)主要解决,海量数据的存储和海量数据的分析计算问题 ​ 3)广义上来说,...
  • 生而有涯而学无涯最近使用VMWare搭建了一个虚拟的Hadoop集群环境,搭建的过程中参考了很多网上大神的资料,在这里记录下本人实践的全过程,用于以后的查询参考使用,参考的资料会在文末贴出对应的链接。集群配置详情...
  • Hadoop集群环境搭建

    2019-08-15 20:39:25
    大数据专栏 | Hadoop集群环境搭建 附软件下载地址: Hadoop官网下载:https://hadoop.apache.org/releases.html JDK下载:https://www.oracle.com/technetwork/java/javase/downloads/index.html CentOS下载:...
  • 红帽子RatHat6下hadoop集群模式安装(3个节点,master,slave1,slave2)一、学习目标:使用红帽子RatHat6在虚拟机上搭建hadoop集群,包含3个节点,体验集群分布式。二、软件需求:三台虚拟机(这里使用VMware ...
  • Hadoop集群搭建教程

    2021-05-19 22:33:41
    Hadoop集群搭建教程装前准备新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants...
  • hadoop集群测试

    2013-07-10 16:35:26
    Hadoop集群安装好后,可以测试hadoop的基本功能。hadoop自带了一个jar包(hadoop-examples-0.20.205.0.jar,不同版本最后不同)中wordcount程序可以测试统计单词的个数,先来体验一下再说。   [hadoop@master ~...
  • Hadoop集群开发

    千次阅读 2017-05-31 10:55:36
    Hadoop集群开发 1. 配置网络环境 1.1. 配置ip地址: [root@localhost85 ~]# vim/etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 TYPE=Ethernet UUID=c1fa9edb-773e-48d2-83cf-82e8b01ffbb0 ONBOOT=...
  • 搭建hadoop集群(版本:3.13) 前言:最近在学习大数据的知识,hadoop集群作为大数据入门知识,一定要非常熟系,现在我将我自己搭建hadoop集群的步骤以及遇到的问题进行一个汇总。做到一个温故知新的作用。 文章目录...
  • hadoop集群部署

    2021-04-29 16:31:12
    例子:scp -r /usr/local/hadoop hadoop01:/usr/local/hadoop 环境三台虚拟机 (三台机器操作相同) 步骤一 修改host加入上面图片的地址 vi /etc/hosts 关闭防火墙 systemctl stop firewalld.service 步骤二 安装...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 18,237
精华内容 7,294
关键字:

hadoop集群图片