精华内容
参与话题
问答
  • 用于大数据集群搭建所需的所有安装包资源提供,包括jdk、zookeeper、Hadoop、hbase、hive、mysql、kylin,本部分为jdk+zookeeper+Hadoop+hbase
  • 用于大数据集群搭建所需的所有安装包资源提供,包括jdk、zookeeper、Hadoop、hbase、hive、mysql、kylin,本部分为hive+MySQL+kylin
  • 大数据集群搭建

    2019-10-01 19:00:28
    一.环境支持 操作系统: CentOS7 64 JDK环境: JDK 8 Hadoop环境: hadoop-2.8.0 虚拟机名称: master(主)+slave1(从1)+slave2(从2) CentOS7 64位百度网盘下载地址: 链接:...

    一.环境支持

    •        操作系统: CentOS7 64
    •        JDK环境: JDK 8
    •        Hadoop环境: hadoop-2.8.0
    •        虚拟机名称: master(主)+slave1(从1)+slave2(从2)

    CentOS7 64位百度网盘下载地址:

    链接:https://pan.baidu.com/s/1dcQ9_vu1nWZ_lcNqaWLtYQ
    提取码:35cf
    JDK 8百度网盘下载地址:

    链接:https://pan.baidu.com/s/1nbDic_eD8Aio8NFk-k7R2g
    提取码:kth1
    hadoop-2.8.0百度网盘下载地址:

    链接:https://pan.baidu.com/s/1AZDLEVrG53pqG84u-2Gysw
    提取码:o90j
    复制这段内容后打开百度网盘手机App,操作更方便哦

    虚拟机不限版本

    二.设置各个主机名称

    1.#编辑hostname配置文件

    vim /etc/hostname

    2.将各个主机的名称填入到具体的hostname文件中

    3.使用hostname命令查看主机名是否成功修改

     

    三.配置JDK的环境变量

     1.将jdk的安装包通过xftp上传到master下的/usr/local目录下(可以自己选择存放目录)

     2.找到存放jdk的目录解压

     tar -zxvf jdk-8u121-linux-x64.tar.gz

     3.通过scp命令将解压好的jdk发送给其他对应的两台主机

     scp -r /usr/local/jdk1.8.0_121/ root@您的IP:/usr/local/

     

    4.接下来,分别卸载各自主机上默认安装的不完整的jdk

     rpm -qa|grep jdk   #查看默认安装的jdk

     

    5.逐个卸载

    rpm -e --nodeps java-1.7.0-openjdk-1.7.0.91-2.6.2.3.el7.x86_64

    rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.65-3.b17.el7.x86_64

    rpm -e --nodeps java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64

    rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.91-2.6.2.3.el7.x86_64

    #我这个只是示例,实际看自己的jdk

     

     

     

      

     

     6.三台主机配置/etc/profile文件,加入JAVA_HOME变量

    #编辑profile文件

    vim /etc/profile

    #加入以下内容,请各位视自身的安装目录为准

    export JAVA_HOME=/usr/local/jdk1.8.0_121

    export CLASSPATH=.:%JAVA_HOME%/lib/dt.jar:%JAVA_HOME%/lib/tools.jar

    export PATH=$PATH:$JAVA_HOME/bin

    #刷新配置文件

    source /etc/profile

    #查看配置是否成功

    java -version

     

     

     

     

     

     

     

     

     

     4.hadoop配置

     1.将hadoop-2.8.0.tar.gz文件通过xftp上传到master下的/usr/local下

     2.解压压缩包

     tar -zxvf hadoop-2.8.0.tar.gz

     3.配置hadoop的环境变量

    #编辑profile文件

    vim /etc/profile

    #加入以下内容,请各位视自身的安装目录为准

    export HADOOP_HOME=/usr/local/hadoop-2.8.0

    export PATH=$PATH:$HADOOP_HOME/bin:$PATH:$HADOOP_HOME/sbin

    #刷新配置文件

    source /etc/profile 

     

     

     

     

     

     

     

     4.编辑hosts文件,将三台主机的主机名称对应的ip地址写入

    #编辑hosts文件

    vim /etc/hosts

    #写入如下内容,注意IP地址以自身为准

    192.168.93.129 master

    192.168.93.130 slave1

    192.168.93.131 slave2

     

     

     

     

     

     5. 完成hadoop内部的配置

    #切换到指定目录下

    cd /usr/local/hadoop-2.8.0/etc/hadoop/

    #配置slaves文件

    vim slaves

    #增加slave主机名,删除掉原有的localhost(必须删除localhost否侧主节点也会被认为是从节点)

    slave1

    slave2

    #配置core-site.xml文件

    vim core-site.xml

    #在configuration节点中加入如下节点

    <property>

         <name>fs.defaultFS</name>

         <value>hdfs://master:9000</value>

    </property>

    <property>

         <name>hadoop.tmp.dir</name>

       <!--视自身的安装位置决定-->

         <value>/usr/local/hadoop-2.8.0/tmp</value> 

    </property>

    #配置hdfs-site.xml文件

    vim hdfs-site.xml

    #在configuration节点中加入如下节点

    <property>

          <name>dfs.namenode.secondary.http-address</name>

          <value>master:50090</value>

    </property>

    <property>

          <name>dfs.replication</name>

          <value>2</value>

    </property>

    <property>

       <!--以自身安装目录为准-->

          <name>dfs.namenode.name.dir</name>

          <value>file:/usr/local/hadoop-2.8.0/hdfs/name</value>

    </property>

    <property>

          <name>dfs.datanode.data.dir</name>

          <value>file:/usr/local/hadoop-2.8.0/hdfs/data</value>

    </property>

    #编辑hadoop-env.sh和yarn-env.sh两个文件

    vim hadoop-env.sh

    vim yarn-env.sh

    #加入以下内容(目录视自身jdk安装位置)

    export  JAVA_HOME=/usr/local/jdk1.8.0_121/

    #配置mapreduce

    #由于mapred-site.xml文件不存在,需要将mapred-site.xml.template克隆出来一份

    cp mapred-site.xml.template  mapred-site.xml

    vim mapred-site.xml

     

    #在configuration中加入如下内容

           <property>

                    <name>mapreduce.framework.name</name>

                    <value>yarn</value>

            </property>

     

    #配置yarn

    vim yarn-site.xml

    #在configuration节点中加入如下内容

    <configuration>

    <!-- Site specific YARN configuration properties -->

            <property>

                    <name>yarn.resourcemanager.hostname</name>

                    <value>master</value>

            </property>

            <property>

                    <name>yarn.nodemanager.aux-services</name>

                    <value>mapreduce_shuffle</value>

            </property>

    </configuration>

     

    #将Hadoop拷贝到另外两台slave从节点

     通过scp命令将已配置好的对应内容发送到slave主机上

    #发送已配置好的hadoop-2.8.0目录

    scp -r /usr/local/hadoop-2.8.0 root@slave1:/usr/local/

    scp -r /usr/local/hadoop-2.8.0 root@slave2:/usr/local/

    #发送已配置好的profile文件

    scp /etc/profile root@slave1:/etc/

    scp /etc/profile root@slave2:/etc/

     

     

     

     

     

    之后在每个子机器中使用 source /etc/profile 使文件生效

    5.启动Hadoop集群服务 

     1、在master主机上运行如下

     hdfs namenode -format   注意:此命令只用执行一次,以后再开启集群时不用在执行此命令,谨记

    2、启动服务命令

     start-all.sh(如果没有配置免密会有很多次需要输入密码,建议配置免密)

    3、停止集群的命令

    stop-all.sh

     4、查看进程是否启动成功

     Master:

             

    Slave:

             

    Hadoop集群到此搭建完毕!!!

     

    转载于:https://www.cnblogs.com/tkzm/p/11395836.html

    展开全文
  • 上海大数据集群搭建与运维竞赛手册(中职)
  • centos7大数据集群搭建 转载地址https://www.jianshu.com/p/ddb868bd97cd 前置条件 有起码三台虚拟机,我有四台,且各本机名和ip地址明确vi /etc/hosts,每台机都配,localhost对应即可 192.168.43.53 localhost 192...

    centos7大数据集群搭建
    转载地址https://www.jianshu.com/p/ddb868bd97cd
    centos7大数据集群搭建
    前置条件
    刚开始我hadoop是cdh版,后期由于学的太多,软件版本混杂,又转了Apache版,但是cdh及收购的CM也是一大优势。为了方便我这里写的是Apache版的。
    设置主机名。
    有起码三台虚拟机,且各本机名和ip地址明确,写在vim /etc/hosts,每台机都配,localhost这个本地主机名大家可以配,可以不配,建议不配,一一对应即可

    192.168.43.53 node1
    192.168.43.122 node2
    192.168.43.211 node3
    

    更改本机主机名配置文件,可以先查,输入hostname看结果,但没设置过得肯定没有)
    查:hostname
    改:vi /etc/sysconfig/network
    增:

    NETWORKING=true
    HOSTNAME=admin
    

    此时大部分机器再查hostname都改掉了,如果有没变化的,请再改一个文件:
    vim /etc/hostname
    将里面的主机名改为自己想要的。然后reboot或者重启即可。
    JDK8已安装,输入java -version查看jdk版本,显示jdk1.8版本。
    ssh服务已开启
    yum install ssh
    设置免密登录。
    这里是用root用户操作的,如果是普通用户,请su root
    并设置ssh免密登录,不设置后面开启的时候会提示五六次输入密码
    ssh-keygen -t rsa
    #根据提示来,看不到yes/no就回车,直至出现一个框框
    cd ~/.ssh
    #.ssh文件夹
    这里一定要注意,有些设置出错可能导致免密无效。
    无效原因一:root和普通用户都设置了免密,都在ssh文件里生成了文件,其实我们(学习者)只需要在root/.ssh目录下生成即可。
    无效原因二:.ssh文件目录权限默认700,authorized_keys文件权限默认600,请不让进行改动。
    无效原因三:秘钥重复,一般刚接触反复试验,authorized_keys里的秘钥会出现很多重复和无效的,建议删了重头再来,免得后期出错。
    在/root/.ssh目录下,执行这条语句:
    ssh-copy-id -i id_rsa.pub root@node2
    其中id_rsa.pub是前面生成的文件,root是用户,node2是目标机器的ip,执行完,会提示你试一试,此时
    ssh node2
    无需密码,也可以给本机弄一个。要是你想要其他机器ssh本机不需要密码,去其他机器重复上面的操作。
    hadoop集群搭建
    其实也是跟着hadoop官网配置的,有兴趣的去官网准确一点,看我的踩到坑了有个对比而已。
    将压缩包放置想设的集群老大中,等下配置完成通过scp指令配置其余三台
    在官网下载hadoop-2.10.0.tar.gz压缩包,放至/opt/app目录下
    将压缩包进行解压缩
    tar -zxvf hadoop-2.10.0.tar.gz
    将hadoop重命名
    mv hadoop-2.10.0.tar.gz hadoop-2.10.0
    修改hadoop配置文件,进入hadoop配置文件目录。
    cd /opt/app/hadoop-2.10.0/etc/hadoop
    没有相应配置文件的,会有xxx.xml.properties这样的参考配置,可以直接复制。
    cp xxx.xml.properties xxx.xml
    修改core-site.xml,命令:vi core-site.xml添加如下代码

    <configuration>
    	<property>
    		<name>fs.defaultFS</name>
    		<value>hdfs://node1:8020</value>
    	</property>
    	<property>
    		<name>io.file.buffer.size</name>
    		<value>65536</value>
    	</property>
    	<!-- hdfs lzo压缩配置-->
    	<property>
        		<name>io.compression.codecs</name>
        		<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
    	</property> 
    	<property>
        		<name>io.compression.codec.lzo.class</name>
        		<value>com.hadoop.compression.lzo.LzoCodec</value> 
    	</property>
    </configuration>
    

    修改hdfs-site.xml,命令:vi hdfs-site.xml,需要新建data文件夹存放节点信息,且dfs.hosts文件写了三台机的主机名。

    <configuration>
    	<property>
    		<name>dfs.namenode.name.dir</name>
    		<value>/opt/app/hadoop-2.10.0/data/namenode</value>
    	</property>
    	<property>
    		<name>dfs.datanode.data.dir</name>
    		<value>/opt/app/hadoop-2.10.0/data/datanode</value>
    	</property>
    	<property>
    		<name>dfs.hosts</name>
    		<value>/opt/app/hadoop-2.10.0/etc/hadoop/dfs.hosts</value>
    	</property>
    	<property>
    		<name>dfs.blocksize</name>
    		<value>268435456</value>
    	</property>
    	<property>
    		<name>dfs.namenode.handler.count</name>
    		<value>100</value>
    	</property>
    </configuration>
    

    修改mapred-site.xml,添加如下代码没有这份文件从mapred-site.xml.template复制一份

    <configuration>
    	<property>
    		<name>mapreduce.framework.name</name>
    		<value>yarn</value>
    	</property>
    	<!-- 配置 MapReduce JobHistory Server 地址 ,默认端口10020 -->
    	<property>
       		 <name>mapreduce.jobhistory.address</name>
       		 <value>node1:10020</value>
    	</property>
    
    	<!-- 配置 MapReduce JobHistory Server web ui 地址, 默认端口19888 -->
    	<property>
        		<name>mapreduce.jobhistory.webapp.address</name>
        		<value>node1:19888</value>
    	</property>
    	<!--hdfs lzo压缩配置 -->
    	<property>
    	    <name>mapred.compress.map.output</name>
    	    <value>true</value>
    	</property>
     
    	<property>
        		<name>mapred.map.output.compression.codec</name>
        		<value>com.hadoop.compression.lzo.LzoCodec</value>
    	</property>
    	<property>
        		<name>mapred.child.env</name>
        		<value>LD_LIBRARY_PATH=/opt/app/hadoop-2.10.0/lzo/lib</value>
    	</property>
    </configuration>
    

    修改yarn-site.xml,命令为:vi yarn-site.xml

    <configuration>
    
    <!-- Site specific YARN configuration properties -->
    	<property>
    		<name>yarn.nodemanager.aux-services</name>
    		<value>mapreduce_shuffle</value>
    	</property>
    	<property>
    		<name>yarn.resourcemanager.hostname</name>
    		<value>node1</value>
    	</property>
    	<!-- 这里是官网建议有的,但是后面我跑MapReduce容易卡住,怀疑是这儿配置问题,就注释掉了-->
    <!--
    	<property>
                    	<name>yarn.scheduler.maximum-allocation-mb</name>
                    	<value>8182</value>
    		<discription>每个任务最多可用内存,默认8182MB</discription>
            	</property>
            	<property>
    		<name>yarn.scheduler.minimum-allocation-mb</name>
    		<value>64</value>
                    	<discription>每个任务最小可用内存</discription>
            	</property>
            	<property>
                    	<name>yarn.nodemanager.vmem-pmem-ratio</name>
                    	<value>3</value> ###物理内存和虚拟内存比率
            	</property>
    -->
    	<!-- oozie任务历史服务 -->
    	<property> 
    		<name>yarn.log.server.url</name> 
    		<value>http://node1:19888/jobhistory/logs/</value> 
    	</property>
    </configuration>
    

    修改hbase-site.xml,命令vi hbase-site.xml

    <configuration>
      <property>
        <name>hbase.rootdir</name>
        <value>hdfs://node1:8020/hbase</value>
      </property>
      <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
      </property>
      <property>
        <name>hbase.zookeeper.quorum</name>
        <value>node1,node2,node3</value>
      </property>
    	<property>
      		<name>hbase.zookeeper.property.dataDir</name>
      		<value>/opt/app/zookeeper-3.5.5/data</value>
    	</property>
    	<property>
      		<name>hbase.unsafe.stream.capability.enforce</name>
      		<value>false</value>
    	</property>
    </configuration>
    

    修改slaves,命令为:vi slaves,内容为集群内的主机名

    node1
    node2
    node3
    

    修改hadoop-env.sh文件,添加字段说明jdk路径,lzo是一种压缩格式,不要的注释掉。
    export JAVA_HOME=/opt/app/jdk1.8

    # hadoop环境
    export HADOOP_HOME=/opt/app/hadoop-2.10.0
    # lzo配置
    export LD_LIBRARY_PATH=/opt/app/hadoop-2.10.0/lzo/lib
    

    更改本机配置文件,添加hadoop环境变量,每台机都需要配
    vi /etc/profile
    添加

    HADOOP_HOME=/usr/local/app/hadoop
    PATH=$HADOOP_HOME/bin:$PATH
    

    更新配置文件
    source /etc/profile
    至此,集群老大配置完成,将hadoop文件分发至各小弟,-r迭代传输@后面跟小弟主机名

    scp -r /opt/app/hadoop-2.10.0 root@node2:/opt/app
    scp -r /opt/app/hadoop-2.10.0 root@node3:/opt/app
    

    更新节点信息,上一步执行不完整会造成不识别hdfs命令
    特别注意,在节点操作上,如果在老大上启动过hadoop,它的节点配置文件会复制到小弟们上,需要删除,删除hdfs-site.xml下面目录的子文件,另外小弟们的/etc/hosts/也需要配置老大的ip,不然无法识别那个老大的主机名是啥,都删除个遍后再启动老大的hadoop。
    hdfs namenode -format
    hdfs datanode -format
    至此,hadoop集群搭建完成,下面开始测试启动hadoop集群
    启动老大的hadoop,进入sbin目录
    ./start-all.sh
    1,输入指令jps查看jps进程
    NameNode
    Jps
    SecondaryNameNode
    DataNode
    老大有NameNode和DataNode
    小弟的DataNode和nodemananger应存在(且小弟不用开启hadoop)
    2,进入浏览器,进入http://node1:50070,Summary的LiveNode存活数为你的主机个数即成功

    hive集群搭建
    zookeeper集群搭建
    kafka集群搭建
    spark集群搭建

    展开全文
  • 根据自己日常学习大数据hadoop集群搭建总结的基本环境的安装过程总结的较为详细操作步骤和相关步骤说明,可供初学者下载参考。
  • CentOS6.8—大数据集群搭建 1.1 工具版本 虚拟机软件:VMware12 客户端软件:SecureCRT8.5 服务器:CentOS6.8 英文、基础服务版 软件版本: hadopp-2.7.2 zookeeper-3.4.10 1.2 模板机配置 1.2.1 关闭SELinux vim /...

    CentOS6.8—大数据集群搭建

    1.1 工具版本

    虚拟机软件:VMware12

    客户端软件:SecureCRT8.5

    服务器:CentOS6.8 英文、基础服务版

    软件版本:
    hadopp-2.7.2
    zookeeper-3.4.10
    

    1.2 模板机配置

    1.2.1 关闭SELinux

    vim /etc/selinux/config
    修改
    SELINUX=disabled
    

    1.2.2 修改网络配置的MAC地址

    vim /etc/sysconfig/network-scripts/ifcfg-eth0
    删除下面两行
    HWADDR=00:0C:29:13:5D:74
    UUID=ae0965e7-22b9-45aa-8ec9-3f0a20a85d11
    

    1.2.3 关闭防火墙

    service iptables stop
    

    1.2.4 取消防火墙开机启动

    chkconfig iptables off
    

    1.2.5 开启crond服务

    service crond restart
    

    1.2.6 设置开机启动

    chkconfig crond on
    

    1.2.7 卸载jdk

    rpm -qa | grep jdk
    rpm -e --nodeps java-1.6.0-openjdk-1.6.0.38-1.13.10.4.el6.x86_64 java-1.7.0-openjdk-1.
    7.0.99-2.6.5.1.el6.x86_64
    

    1.2.8 安装lrzsz

    yum -y install lrzsz
    

    1.2.9 安装jdk

    mkdir /opt/module
    mkdir /opt/software
    # 上传jdk1.8
    tar -zxvf jdk-8u144-linux-x64.tar.gz -C ../module/
    mv /opt/module/jdk1.8.0_144 /opt/module/jdk-1.8
    # 配置环境变量
    vim /etc/profile
    # java-1.8
    export JAVA_HOME=/opt/module/jdk-1.8
    export PATH=$PATH:$JAVA_HOME/bin
    source /etc/profile
    java -version
    

    1.3 集群搭建

    克隆三台主机,选择链接克隆,然后启动虚拟机,三台都需要修改ip,配置网卡和映射

    修改主机名

     vim /etc/sysconfig/network 
    

    修改IP地址

    vim /etc/sysconfig/network-scripts/ifcfg-eth0 
    

    删除网卡信息等待重新生成

     rm -rf /etc/udev/rules.d/70-persistent-net.rules
    

    配置ip-主机映射

    vim /etc/hosts 
    
    192.168.1.6 node-1 
    192.168.1.7 node-2 
    192.168.1.8 node-3 
    

    注意:需要重新启动生效 ,三台机器执行:reboot

    1.3.1 安装ssh

    #三台机器同时执行:

    ssh-keygen 
    ssh-copy-id node-1 
    

    #node-1上执行:

    cd /root/.ssh/ 
    scp authorized_keys node-2:$PWD
    scp authorized_keys node-3:$PWD
    

    执行完之后在三台机器上都访问一次(第一次验证需要输入密码,后面就不需要了)

    ssh node-1 
    ssh node-2 
    ssh node-3
    

    1.3.2 时钟同步

    node-1同步阿里云

    node-2同步node-1

    node-3同步node-1

    搭建时钟服务器

    #检查ntp服务是否安装
    rpm -qa|grep ntp
    
    #修改ntp配置文件
    vim /etc/ntp.conf
    
    #授权192.168.233.0网段上的所有机器可以从这台机器上查询和同步时间
    restrict 192.168.233.0 mask 255.255.255.0 nomodify notrap
    
    #集群在局域网中,不使用其他的网络时间
    #server 0.centos.pool.ntp.org iburst
    #server 1.centos.pool.ntp.org iburst
    #server 2.centos.pool.ntp.org iburst
    #server 3.centos.pool.ntp.org iburst
    
    #当该节点丢失网络连接,依然可以作为时间服务器为集群中的其他节点提供时间同步
    server 127.127.1.0
    fudge 127.127.1.0 stratum 10
    
    #修改/etc/sysconfig/ntpd 文件
    vim /etc/sysconfig/ntpd
    
    #保证 主板 BIOS 与系统时间同步
    SYNC_HWCLOCK=yes
    
    #重启ntpd服务
    service ntpd restart
    
    #设置开机启动
    chkconfig ntpd on
    
    #定时任务表设置一分钟同步一次
    crontab -e
    */1 * * * * /usr/sbin/ntpdate -u ntp.aliyun.com
    
    #不仅仅有阿里云,下面三个任选其一作为node-1的同步机器
    ntp.aliyun.com
    time.apple.com
    ntp.ntsc.ac.cn
    
    #将其它机器(node-2,node-3)的ntp服务停掉
    service ntpd stop
    #关闭开机启动
    chkconfig ntpd off
    
    #设置同步node-1的时间,一分钟同步一次
    crontab -e
    */1 * * * * /usr/sbin/ntpdate node-1
    

    1.3.3 配置yum源

    node-1配置优先本地、次之网络,因为本地的速度要比网络的要快。

    配置本地yum源

    mkdir -p /mnt/centos
    mkdir -p /mnt/local_yum
    mount -o loop /dev/cdrom /mnt/centos
    cp -r /mnt/centos/* /mnt/local_yum/
    # 注意:下面步骤的执行要退出该目录
    umount /mnt/centos/
    cd /etc/yum.repos.d/
    rename .repo .repo.back *.repo
    cp CentOS-Media.repo.back local_yum.repo
    vim local_yum.repo
    [local_yum]
    name=this is my local yum
    baseurl=file:///mnt/local_yum
    gpgcheck=0
    enabled=1
    priority=1
    gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6
    yum clean all
    yum repolist all
    

    网络yum源

    yumwget http://mirrors.163.com/.help/CentOS6-Base-163.repo
    wget http://mirrors.aliyun.com/repo/Centos-6.repo
    
    # 安装开启优先级管理
    yum -y install yum-plugin-priorities.noarch
    
    cat /etc/yum/pluginconf.d/priorities.conf
    enabled = 1 #启动状态
    
    #安装gcc测试
    yum -y install httpd
    #分发到node-2和node-3上
    
    scp local_yum.repo node-2:$PWD
    scp local_yum.repo node-3:$PWD
    
    scp Centos-6.repo node-2:$PWD
    scp Centos-6.repo node-3:$PWD
    

    将node-1上的资源Packager挂载到ApacheServer下,就可以通过http来访问资料

    service httpd start
    chkconfig httpd on
    cd /var/www/html/
    ln -s /mnt/local_yum/ centos
    

    node-2配置连接node-1,node-3配置连接node-1

    vim local_yum.repo
    [local_yum]
    name=this is my local yum
    baseurl=http://node-1/centos/
    gpgcheck=0
    enabled=1
    priority=1
    gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6
    

    1.4 Hadoop的安装

    1.4.1. 集群规划

    在这里插入图片描述

    1.4.2. 配置文件修改

    tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
    #对脚本的jdk配置环境变量
    vim hadoop-env.sh
    export JAVA_HOME=/opt/module/jdk-1.8
    vim yarn-env.sh
    export JAVA_HOME=/opt/module/jdk-1.8
    vim mapred-env.sh
    export JAVA_HOME=/opt/module/jdk-1.8
    
    vim core-site.xml
    <!-- 指定HDFS中NameNode的地址 -->
    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node-1:9000</value>
    </property>
    <!-- 指定hadoop运行时产生文件的存储目录 -->
    <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-2.7.2/data/tmp</value>
    </property>
    
    vim hdfs-site.xml
    <!--副本数量-->
    <property>
    <name>dfs.replication</name>
    <value>3</value>
    </property>
    <!--secondarynamenode的地址,辅助namenode工作 -->
    <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>node-3:50090</value>
    </property>
    
    cp mapred-site.xml.template mapred-site.xml
    vim mapred-site.xml
    <!-- 指定mr运行在yarn上 -->
    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>
    
    vim yarn-site.xml
    <!-- reducer获取数据的方式 -->
    <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    </property>
    <!-- 指定YARN的ResourceManager的地址 -->
    <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node-2</value>
    </property>
    
    #配置从节点
    vim slaves
    node-1
    node-2
    node-3
    

    1.4.3. 环境变量修改

    vim /etc/profile
    # hadoop-2.7.2
    export HADOOP_HOME=/opt/module/hadoop-2.7.2
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    source /etc/profile
    

    1.4.4. 分发安装包和环境变量配置文件

    scp /opt/module/hadoop-2.7.2 node-2:$PWD
    scp /opt/module/hadoop-2.7.2 node-3:$PWD
    
    scp /etc/profile node-2:/etc/
    scp /etc/profile node-3:/etc/
    

    1.4.5. 格式化集群

    在node-1上格式化namenode并且只格式化一次,后续无论如何都不再格式化,否则会产生UUID不一样的错误

    hadoop namenode -format
    #注意:在node-2上进行:start-all.sh
    node-1:mr-jobhistory-daemon.sh start historyserver
    

    1.4.6. 集群访问

    NameNode :

    • node-1:50070

    Yarn :

    • node-2:8088

    SeconeraryNameNode :

    • node-3:50090

    Yarn-historyServer:

    • node-1:19888
    展开全文
  • 首先,要在计算机上安装hadoop,,没安装hadoop的可用看大数据集群搭建(2). 访问Spark官方下载地址,按照如下图下载。 Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的...

    spark-2.1.0下载

    首先,要在计算机上安装hadoop,,没安装hadoop的可用看大数据集群搭建(2).

    访问Spark官方下载地址,按照如下图下载。

     

    Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。这里采用Yarn模式。

    我选用的spark版本为spark-2.1.0-bin-without-hadoop.tar.gz,旧版本在 http://archive.apache.org/dist/

    sudo tar -zxvf spark-2.1.0-bin-without-hadoop.tgz -C /usr/BigDatasudo #解压到指定文件
    sudo  mv /usr/BigData/spark-2.1.0-bin-without-hadoop/ spark    #改文件夹名称
    sudo chown -R "usrname':"usrname" ./spark    #改文件权限
    
    cd ./spark
    cp ./conf/spark-env.sh.template ./conf/spark-env.sh    #拷贝文件
    sudo gedit ./conf/spark-env.sh
    #第一行加入
    export SPARK_DIST_CLASSPATH=$(/usr/BigData/hadoop/bin/hadoop classpath)
    
    #配置环境变量
    sudo gedit ~/.bashrc
    #加入以下信息
    export SPARK_HOME=/usr/BigData/spark
    export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
    #使生效
    
    #如果安装了Python,添加
    
    export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH
    export PYSPARK_PYTHON=python3
    
    
    source ~/.bashrc
    
    
    #保存环境配置后,运行下行测试spark是否运行成功(spark目录下)
    bin/run-example SparkPi 2>&1 | grep "Pi is"

    spark配置

    mastet节点:

    • 配置slaves文件,将 slaves.template 拷贝到 slaves,然后设置works节点,编辑slave名称
    cd /usr/BIgData/spark
    cp ./conf/slaves.template ./conf/slaves
    sudo gedit ./conf/slaves
    

    将localhost替换为slave的名字,本文为slave1

    cp ./conf/spark-env.sh.template ./conf/spark-env.sh
    sudo gedit ./conf/spark-env.sh
    
    
    
    #在首行添加以下内容
    export JAVA_HOME=/usr/BigData/jdk/jdk1.8.0_131
    export HADOOP_HOME=/usr/BigData/hadoop
    export SPARK_DIST_CLASSPATH=$(/usr/BigData/hadoop/bin/hadoop classpath)
    export HADOOP_CONF_DIR=/usr/BigData/hadoop/etc/hadoop
    export SPARK_MASTER_IP=192.168.1.100    #设置为自己的master ip
    export SPARK_MASTER_PORT=7077
    export SPARK_LOCAL_IP=192.168.1.100

     

    配置好后,将spark文件夹复制到各节点。

    cd /usr/BigData
    tar -zcf ~/spark.master.tar.gz ./spark
    cd ~
    scp ./spark.master.tar.gz slave1:/usr/BigData

    在slave节点

    sudo tar -zxvf ~/spark.master.tar.gz -C /usr/BigData
    sudo chown -R “usrname‘ /usr/BigData/spark
    
    

     修改spark-en.sh 的路径SPARK_LOCAL_IP

    export SPARK_LOCAL_IP=192.168.1.101 #slaves的IP
    

    启动spark集群

    启动Spark集群前,要先启动Hadoop集群。在Master节点主机上运行如下命令:

    cd ./hadoop
    sbin/start-all.sh    #如果把sbin加入环境变量后就可以直接start-all.sh命令
    
    • 启动maste节点 spark
    cd /usr/BigData/spark
    sbin/start-master.sh

    启动成功后会多一个master进程

    • 启动slaves节点 spark
    sbin/start-slaves.sh

    启动成功后可以在slave节点看到多了worker进程

     

    • 浏览器查看Spark独立集群管理器的集群信息

    在master主机上打开浏览器,访问http://master:8080,如下图:

    关闭spark集群

    sbin/stop-master.sh
    sbin/stop-slaves.sh
    

    参考文章http://dblab.xmu.edu.cn/blog/1714-2/

     

    展开全文
  • 大数据集群搭建心得

    2020-11-13 14:15:43
    大数据集群搭建心得基础环境准备主节点安装安装JDK安装HadoopHadoop配置文件从节点配置Hadoop启动 基础环境准备 1 将每台服务器的防火墙关闭 systemctl status firewalld.service #查看防火墙状态 systemctl stop...
  • 环境准备好了,可直接看大数据集群搭建之hadoop-完全分布式 以虚拟机环境测试的 物理机不一定适用 系统是Centos7的 1、配置静态ip vim /etc/sysconfig/network-scripts/ifcfg-ens33 ONBOOT=yes BOOTPROTO=...
  • 大数据集群搭建文章

    千次阅读 2018-05-01 07:47:06
    收集一下大数据集群环境搭建文章:https://wenku.baidu.com/view/0a9c4ebc50e79b89680203d8ce2f0066f433645e.htmlhttps://blog.csdn.net/youzhouliu/article/details/66973596?locationNum=15&amp;fps=1...
  • 大数据集群搭建部署简洁版 Ip 配置 安装jdk rpm -ivh jdk-8u201-linux-x64.rpm Jdk安装目录/usr/java/default/ 配置环境变量 vi /etc/profile进入环境变量 添加 JAVA_HOME=/usr/java/default/ source /etc/profile ...
  • 大数据集群搭建:安装部署mysql、sqlserver、Zookeeper、Hadoop、Spark、Flink、Kafka、kettle、airflow集群 文章分类 链接 大数据集群环境搭建 大数据集群环境搭建:Hadoop、Spark、Flink分布式集群环境 ...
  • 大数据集群搭建(zookeeper、高可用hadoop、高可用hbase) 文章目录大数据集群搭建(zookeeper、高可用hadoop、高可用hbase)@[toc]一、准备工作1. 架构2. 三台相互免密登录3. 关闭防火墙4. zhiyou001主机中的hosts...
  • 1、下载redis版本 ...在此路径下选择相应的版本进行下载。 2、 解压redis-3.2.8.tar.gz到/home/hadoop/redis目录下 3、进入解压目录进行编译, 先执行make然后再执行make install。 如下图: ...
  • 大数据集群搭建—《zookeeper篇》 --菜鸟小回 二、zookeeper 集群搭建 创建:mkdir -p /opt/zookeeper 进入:cd /opt/zookeeper 上传: 解压tar -zxvf zookeeper-3.4.12.tar.gz 5.配置zoo.cfg cd /...
  • 大数据集群搭建基本配置说明

    千次阅读 2018-05-25 15:38:11
    大数据发展愈演愈烈,为了快速跟上技术发展的步伐,最近在学习大数据的相关技术,当然第一步,还是要学习大数据集群搭建,将自己的一些小经验分享给大家,希望对你们有帮助,当然也感谢在我学习的过程,提供资料和...
  • 大数据集群搭建—《kafka(集群)篇》 --菜鸟小回 创建:mkdir -p /opt/kafka 进入:cd /opt/kafka 上传 解压:tar -zxvf kafka_2.12-1.1.0.tgz 修改配置文件 server.properties cd /opt/kafka/kafka_2.12-1.1.0/...
  • 大数据集群搭建—《strom(集群)篇》 --菜鸟小回 创建上传解压同上篇 配置storm cd /opt/storm/apache-storm-1.2.2/conf/ //在文件最后新加 storm.local.dir: "/opt/storm" storm.zookeeper.servers: - "zhiyou...
  • CDH大数据集群搭建

    2019-08-15 11:31:03
    简介 CDH是cloudera公司开发的一个快速部署、高效管理Hadoop和其各种组件的一个商业化产品。主要分为两部分,分别为Cloudera Manager和...由于实验室服务器集群实现了硬件虚拟化,要在虚拟资源重新搭建CDH集群。clo...
  • 集群运维搭建搭建hdfs,hadoop,hbase,spark,oozie,sqoop,MR,zookeeper,hive
  • 大数据集群搭建—《flume篇》 --菜鸟小回 创建:mkdir -p /opt/flume 进入:cd /opt/flume 上传 解压:tar -zxvf apache-flume-1.8.0-bin.tar.gz 修改配置文件 flume-env.sh cd /opt/flume/apache-flume-1.8.0-bin...
  • 大数据集群搭建—《hive篇》 --菜鸟小回 创建上传解压 安装好mysql,需要在mysql里面创建一个数据集hive vi /etc/profile vi /etc/profile //添加 export HIVE_HOME=/opt/hive/apache-hive-2.3.3-bin export PATH=...
  • 大数据集群搭建—《sqoop篇》 --菜鸟小回 创建上传安装如上篇 导入mysql驱动 将数据库导到hdfs上面 cd /opt/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/bin //导入 ./sqoop import --connect jdbc:mysql://192.168....
  • 文章目录1 配套版本2 穷人版节点部署与编排 123 Yarn 资源预估4 硬件配置5 穷人版节点部署与编排 10节点6 乞丐版混搭7 土豪金版本设计 1 配套版本 版本考虑: 生产环节已有一套 但 kafka 的 scala 不配套、本次测试/...
  • 大数据集群搭建汇总

    2019-01-30 18:07:11
    在CeontOS6.9安装JDK1.8:...在CentOS6.9搭建Hadoop2.6.5集群:https://blog.csdn.net/andyguan01_2/article/details/86595985 在CentOS6.9搭建Spark2.4.0集群:https://b...
  • 大数据集群搭建—《高可用hadoop篇》 --菜鸟小回 三、hadoop集群搭建(先配zhiyou001复制给其他,配置前确保zookeeper配置完成) 创建:mkdir /opt/hadoop 进入:cd /opt/hadoop 上传: 解压:tar -zxvf ...

空空如也

1 2 3 4 5 ... 20
收藏数 4,808
精华内容 1,923
关键字:

大数据集群搭建