精华内容
下载资源
问答
  • hadoop集群配置
    千次阅读
    2021-11-10 14:37:51

    1.下载hive包,这里使用的是hive 2.3.0,hadoop 2.7.1

    Index of /dist/hive

    2.解压压缩包

    tar zxvf apache-hive-2.3.0-bin.tar.gz

    --------------------------

    只是为了做实验使用,因此未创建工作组及hive用户,不涉及core-site.xml代理配置

    --------------------------

    3.添加$HIVE_HOME,使用source生效环境变量

    vim /etc/profile
    source /etc/profile

    4.修改后,完整的环境变量内容

    #Java/Hive/Hadoop
    export JAVA_HOME=/usr/java/jdk1.8.0_161
    export HADOOP_HOME=/usr/hadoop/hadoop-2.7.1
    export HIVE_HOME=/usr/apache-hive-2.3.0-bin
    export PATH=$PATH:$JAVA_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    
    #spark
    export SPARK_HOME=/usr/spark-2.4.2
    export PATH=$PATH:$SPARK_HOME/bin

    5.在hdfs创建hive目录

    hdfs dfs -mkdir -p /user/hive/warehouse
    hdfs dfs -mkdir -p /user/hive/log

    6.使用derby初始化元数据库,一般使用mysql作为hive元数据库

    schematool -initSchema -dbType derby

    遇到的问题:

    因之前配置过hive 2.3.9,提示元数据库已存在,此处贴出部分报错,Error: FUNCTION 'NUCLEUS_ASCII' already exists

    解决方法:

    将已存在的metastore_db更名为:metastore_db.tmp
    查找方式:根目录下find -name "metastore_db*"

    find -name "metastore_db*"
    mv metastore_db metastore_db.tmp

    7.初始化成功

     8.验证

    启动hive后,hive下show databases;

    更多相关内容
  • hadoop集群配置之———hive安装与配置(超详细)
  • Hadoop集群配置及启动

    2022-05-13 17:06:19
    搭建完全分布式hadoop集群,我们实现如下集群的配置配置前我们介绍一下配置文件: 以下所有的配置文件都在hadoop安装目录下etc文件中,路径如下: /opt/module/hadoop-3.1.3/etc/hadoop/ 我们需要配置的文件...

    一、搭建完全分布式hadoop集群,我们先来实现如下集群的配置:
    在这里插入图片描述
    配置前我们介绍一下配置文件:
    以下所有的配置文件都在hadoop安装目录下etc文件中,路径如下:
    /opt/module/hadoop-3.1.3/etc/hadoop/
    在这里插入图片描述
    我们需要配置的文件如下:
    在这里插入图片描述
    core-site.xml :1、NameNode的地址 2、Hadoop数据存储目录
    在这里插入图片描述

    hdfs-site.xml :1、NameNode和2NN对外web访问地址
    在这里插入图片描述

    yarn-site.xml:1、指定MapReduce的协议 2、指定ResourceManger的地址 3、添加Maperd环境变量的继承(此项hadoop3.2以上版本可以无需指定)
    在这里插入图片描述

    mapred-site.xml :1、指定MapReduce程序运行在Yarn上
    在这里插入图片描述

    好了,到现在为止,我们搭建了一台服务器,其他两台的配置我们用集群分发脚本分发一下(脚本见之前的文章)。
    在这里插入图片描述
    二、启动集群

    1、格式化NameNode

    如果是第一次启动集群,我们在含有NameNode的服务器上先格式化NameNode( 注意 : 格 式 化 NameNode , 会 产 生 新的集群 id , 导 致 NameNode 和 DataNode 的集群 id 不 一 致 , 集群 找 不 到已 往 数据。 如果集群在 运 行过程中 报错 , 需 要 重 新 格 式 化 NameNode 的 话 , 一定要 先 停止 namenode 和 datanode 进程, 并 且 要 删 除所有 机 器的 data 和 logs 目 录 , 然后再 进行 格 式 化 。 及停服务、删文件、格式化)

     hdfs namenode  -format
    

    结果展示:出现存数据的Data文件、logs日志文件
    在这里插入图片描述

    2、启动HDFS

    sbin/start-dfs.sh
    jps
    

    结果如下:
    hadoop001上启动NameNode、DataNode
    在这里插入图片描述
    hadoop002上启动ResourceManager、DataNoda
    hadoop上启动YARN:

    sbin/start-yarn.sh
    

    在这里插入图片描述
    hadoop003上启动了DataNade、SecondaryNode
    在这里插入图片描述

    3、查看Web端HDFS的NameNode和YARN的ResourceManager
    首先关闭服务器防火墙

    sudo systemctl stop firewalld.service
    

    浏览器输入http://hadoop001:9870查看HDFS信息
    在这里插入图片描述
    浏览器输入http://hadoop002:8088查看ResourceManager信息
    在这里插入图片描述
    至此,hadoop完全分布式搭建完成!

    展开全文
  • 手把手教你hadoop集群配置(详细)

    千次阅读 2021-07-24 19:47:03
    其中hadoop112已完成JDK、Hadoop的安装以及环境变量的配置。所以需要将112上的两者复制到113和114上。 1、将JDK用scp方法从112复制到113上 scp -r jdk1.8.0_212/ dlw@hadoop113:/opt/module/ 从113上查看结果,...

    在这里插入图片描述
    本博客用到的虚拟机客户机已将前五步完成,从6)开始
    现有三台客户机,hadoop112,hadoop113,hadoop114。其中hadoop112已完成JDK、Hadoop的安装以及环境变量的配置。所以需要将112上的两者复制到113和114上。

    1、将JDK用scp方法从112复制到113上
    在这里插入图片描述

    scp -r jdk1.8.0_212/ dlw@hadoop113:/opt/module/
    

    从113上查看结果,显示出JDK已存在则证明复制成功。
    在这里插入图片描述

    2、将hadoop用scp方法从112上拉到113中。
    在这里插入图片描述

    scp -r dlw@hadoop112:/opt/module/hadoop-3.1.3 ./
    

    从113上查看结果,显示出hadoop已存在则证明113从112上拉取相应的数据已成功。
    在这里插入图片描述

    将JDK和hadoop复制到其他客户机上有两种方式1、从a复制到b。(JDK所用方法)2、b向a拉取数据。(Hadoop所用方法)hadoop114与上方操作一样。

    xsync集群分发脚本

    循环复制文件到所有节点的相同目录之下。(xsync 要同步的文件名称。)

    1、在~目录下创建bin文件并打开
    在这里插入图片描述
    在这里插入图片描述
    创建脚本
    在这里插入图片描述

    #!/bin/bash
    if [ $# -lt 1 ]
    then
        echo Not Enough Arguement!
        exit;
    fi
    #2. 遍历集群所有机器
    for host in hadoop112 hadoop113 hadoop114
    do
        echo ====================  $host  ====================
        #3. 遍历所有目录,挨个发送
        for file in $@
        do
            #4. 判度胺文件是否存在
            if [ -e $file ]
                then
                    #5. 获取父目录
                    pdir=$(cd -P $(dirname $file); pwd)
                    #6. 获取当前文件得名称
                    fname=$(basename $file)
                    ssh $host "mkdir -p $pdir"
                    rsync -av $pdir/$fname $host:$pdir
                else
                    echo $file does not exists!
            fi
        done
    done
    

    之后再修改脚本xsync具有的执行权限:
    在这里插入图片描述

    chmod +x xsync
    

    执行完之后即可同步bin文件到113和114
    在这里插入图片描述
    113中显示bin文件,表示xsync执行成功。
    在这里插入图片描述
    利用xsync经JDK和Hadoop的环境变量快速分发到113和114上。
    在这里插入图片描述
    分发完环境变量之后,分别在113和114中进行source指令
    在这里插入图片描述

    source /etc/profile
    

    ssh免密登录配置

    在/root/.ssh路径下输入并不断回车
    在这里插入图片描述在这里插入图片描述
    会出现112的公钥和私钥
    在这里插入图片描述
    将112的公钥拷贝到113和114上
    在这里插入图片描述

    ssh-copy-id hadoop113
    

    在这里插入图片描述

    在113和114上重复以上操作。

    完成ssh免密登录之后再应用xsync分发脚本往其他服务器传送数据的时候就可以不用输入密码了(限于一完成ssh免密登录的用户

    集群配置

    配置核心文件
    1、配置core-site.xml
    在这里插入图片描述

        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://hadoop112:8020</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/opt/module/hadoop-3.1.3/data</value>
        </property>
        <!-- 配置HDFS网页登录使用的静态用户为dlw -->
        <property>
            <name>hadoop.http.staticuser.user</name>
            <value>dlw</value>
            <value>root</value>
        </property>
    

    2、配置hdfs-site.xml
    在这里插入图片描述

    	<property>
            <name>dfs.namenode.http-address</name>
            <value>hadoop102:9870</value>
        </property>
        <property>
            <name>dfs.namenode.secondary.http-address</name>
            <value>hadoop104:9868</value>
        </property>
    

    3、配置yarn-site.xml
    在这里插入图片描述

        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>hadoop113</value>
        </property>
        <property>
            <name>yarn.nodemanager.env-whitelist</name>
            <value>JAVA HOME,HADOOP COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
        </property>
        <!-- 开启日志聚集功能 -->
        <property>
            <name>yarn.log-aggregation-enable</name>
            <value>true</value>
        </property>
        <!-- 设置日志聚集服务器地址 -->
        <property>
            <name>yarn.log.server.url</name>
            <value>http://192.168.10.112:19888/jobhistory/logs</value>
        </property>
        <!-- 设置日志保留时间为7-->
        <property>
            <name>yarn.log-aggregation.retain-seconds</name>
            <value>604800</value>
        </property>
    
    

    4、配置mapred-site.xml
    在这里插入图片描述

        <!-- 指定MapReduce程序运行在Yarn上 -->
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
        <!-- 历史服务器端地址 -->
        <property>
            <name>mapreduce.jobhistory.address</name>
            <value>192.168.10.112:10020</value>
        </property>
        
        <!-- 历史服务器web端地址 -->
        <property>
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>192.168.10.112:19888</value>
        </property>
    
    

    当前四部仅仅在112上完成了配置,然后使用xsync脚本将hadoop分发到113和114
    在这里插入图片描述

    群起集群

    1、配置workers
    在/opt/module/hadoop-3.1.3/etc/hadoop路径下编辑workers
    在这里插入图片描述
    workers中不能有任何多余的空格,不能有多余的空行。
    之后用xsync脚本分发到113和114
    2、启动集群
    在第一次启动集群的时候需要将hadoop112的NameNode节点格式化。
    在这里插入图片描述配置一下root用户启动权限(112,113,114都需要进行相应的操作)
    在/opt/module/hadoop-3.1.3/etc/hadoop路径下修改hadoop-env.sh文件。
    在hadoop-env.sh文件的最上方加上

    export HDFS_NAMENODE_USER=root
    export HDFS_DATANODE_USER=root
    export HDFS_JOURNALNODE_USER=root
    export HDFS_ZKFC_USER=root
    export YARN_RESOURCEMANAGER_USER=root
    export YARN_NODEMANAGER_USER=root
    export HDFS_SECONDARYNAMENODE_USER=root

    然后启动dfs
    在这里插入图片描述
    然后输入jps查看进程
    在这里插入图片描述
    启动yarn
    在hadoop113上启动yarn在这里插入图片描述
    启动完成之后分别查看hadoop112,hadoop113,hadoop114的进程看是否与下表所含的进程一致。
    在这里插入图片描述

    展开全文
  • Hadoop | 【03】hadoop集群配置

    千次阅读 2022-03-18 16:00:59
    文章目录一、集群配置1、集群部署规划2、配置文件分类默认配置文件自定义配置文件3、配置集群3.1 core-site.xml 核心配置文件3.2 hdfs-site.xml hdfs配置文件3.3 yarn-site.xml yarn配置文件3.4 mapred-site.xml ...

    一、集群配置

    1、集群部署规划

    • NameNode、SecondaryNameNode、ResourceManager不要安装在同一台服务器,很消耗内存;
    node1node2node3
    HDFSNameNode、DataNodeDataNodeSecondaryNameNode、DataNode
    YARNNodeManagerResourceManager、NodeManagerNodeManager

    2、配置文件分类

    默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值;

    默认配置文件
    要获取的默认文件文件存放在Hadoop的jar包中的位置
    core-default.xmlhadoop-common-3.1.3.jar/core-default.xml
    hdfs-default.xmlhadoop-hdfs-3.1.3.jar/hdfs-default.xml
    yarn-default.xmlhadoop-yarn-common-3.1.3.jar/yarn-default.xml
    mapred-default.xmlhadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml
    自定义配置文件

    core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置;

    3、配置集群

    需要先配置一下hadoop-env.sh

    在这里插入图片描述

    3.1 core-site.xml 核心配置文件
    /usr/local/hadoop-2.10.1/etc/hadoop
    

    在这里插入图片描述

    <?xml version="1.0" encoding="UTF-8"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    
    <configuration>
        <!-- 指定NameNode的地址 -->
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://node01:9000</value>
        </property>
    
        <!-- 指定hadoop数据的存储目录 -->
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/usr/local/hadoop-2.10.1/data</value>
        </property>
    
        <!-- 配置HDFS网页登录使用的静态用户为atguigu -->
        <property>
            <name>hadoop.http.staticuser.user</name>
            <value>atguigu</value>
        </property>
    </configuration>
    
    3.2 hdfs-site.xml hdfs配置文件
    <?xml version="1.0" encoding="UTF-8"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    
    <configuration>
    	<!-- nn web端访问地址-->
    	<property>
            <name>dfs.namenode.http-address</name>
            <value>namenode的结点名称:端口号</value>
        </property>
    	<!-- 2nn web端访问地址-->
        <property>
            <name>dfs.namenode.secondary.http-address</name>
            <value>hadoop02:50090</value>
        </property>
    </configuration>
    
    3.3 yarn-site.xml yarn配置文件
    <?xml version="1.0" encoding="UTF-8"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    
    <configuration>
        <!-- 指定MR走shuffle -->
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
    
        <!-- 指定ResourceManager的地址-->
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>结点名称</value>
        </property>
    
        <!-- 环境变量的继承 -->
        <property>
            <name>yarn.nodemanager.env-whitelist</name>
            <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
        </property>
    </configuration>
    
    3.4 mapred-site.xml mapreduce配置文件
    <?xml version="1.0" encoding="UTF-8"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    
    <configuration>
    	<!-- 指定MapReduce程序运行在Yarn上 -->
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    
    # 配置成功后分发配置文件:
    xsync /usr/local/hadoop-2.10.1/etc/hadoop
    
    3.5 配置worker
    # 配置worker
    /usr/local/hadoop-2.10.1/etc/hadoop/worker
    # 主机名不能又空格,且不能有空行
    

    在这里插入图片描述

    3.6 启动

    第一次启动

    - 需要在格式化NameNode
    【注意】:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。如果集群在运行过程中报错,需要新
    格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化;
    
    > hdfs namenode -format
    
    # 启动集群
    start-dfs.sh
    
    # 关闭集群
    stop-dfs.sh
    
    # 在配置了ResourceManager的节点启动YARN
    sbin/start-yarn.sh
    
    # 查看hdfs的NameNode
    http://node01:配置的端口号
    
    # 查看YARN的ResourceManager
    http://node02:配置的端口号
    
    展开全文
  • Hadoop集群配置

    千次阅读 2022-03-29 19:48:59
    一篇教你学会Hadoop集群配置操作
  • hadoop集群配置之————flume安装配置(详细版)
  • HADOOP集群配置

    2015-11-16 09:42:39
    HADOOP集群配置方法,详细记载了每一步配置
  • hadoop集群配置

    2013-11-12 10:32:15
    hadoop集群配置
  • hadoop集群配置文档

    2017-08-18 09:55:01
    hadoop集群配置文档
  • Hadoop 集群配置

    万次阅读 2019-03-31 11:51:12
    文章目录集群部署规划配置核心配置文件hdfs 配置文件hadoop-env.shhdfs-site.xmlyarn 配置文件yarn-env.shyarn-site.xmlmapreduce 配置文件mapred-env.shmapred-site.xml分发配置 集群部署规划 hadoop102 ...
  • hadoop配置详细教程,涵盖了Hadoop集群配置从头到尾的所有细节部署,其中注意点已用红色标记,此文档曾用于企业Hadoop集群搭建教程,涵盖了 准备篇---配置篇----启动测试篇---问题篇,解决网络上Hadoop集群配置教程...
  • Hadoop集群配置文件备份
  • hadoop配置文件修改 先进入hadoop配置文件所在路径: cd /usr/local/src/hadoop-2.6.1/etc/hadoop 修改slaves vim slaves 修改core-site.xml vim core-site.xml fs.defaultFS hdfs://192.168.43.10:9000 #主机...
  • Hadoop集群的搭建及配置

    千次阅读 2022-03-23 16:28:50
    1、安装虚拟机、操作系统 2、设置IP、虚拟机在线安装软件 3、搭建hadoop完全分布式集群 修改配置文件 克隆虚拟机 配置ssh免密码登录 配置时间同步服务 启动 关闭集群 操作环境 1.VMware 2.CentOS6.8系统 3.xshell5 ...
  • Hadoop集群搭建(五)-集群配置文件

    千次阅读 2022-04-29 15:33:11
    集群部署规划 hadoop102 hadoop103 hadoop104 HDFS NameNode DataNode SecondaryNameNode NataNode YARN NodeManager ...
  • Hadoop集群搭建总结

    2016-10-21 11:06:24
    重点描述hadoop2.0的大数据处理环境搭建过程
  • Hadoop集群配置 1)集群部署规划 注意: ①NameNode和SecondaryNameNode不要安装在同一台服务器上。NN和2NN的关系就好像是NN的补充是2NN,如果安装在同一个机器上,机器一挂,NN和2NN全挂,完全不需要2NN对NN的补充 ...
  • Hadoop集群配置:启动hadoop出现没有resourcemanager 首先要格式化一下 bin/hadoop namenode -format 格式化以后 启动Hadoop 启动完后用jps查看 发现没有resourcemanager这一项 于是打开logs 于是打开 hadoop-...
  • 本文通过12个步骤实现Hadoop集群的完全分布式搭建 刚刚入门,如有错误请指出 文章目录1. 服务器准备2. 网络环境准备3. 服务器系统设置4. JDK环境安装5. Hadoop安装6. Hadoop文件配置:hadoop-env.sh(hadoop运行环境...
  • hadoop集群配置流程以及用到的配置文件,hadoop2.8.4、hbase2.1.0、zookeeper3.4.12
  • CentOs系统下Hadoop集群式搭建配置步骤,一步步带你搭建分布式Hadoop
  • hadoop集群配置踩坑实录

    千次阅读 2022-03-15 16:25:59
    配置hadoop集群时遇到三个坑:start-dfs.sh失败、hadoop文件夹无法传给其他节点、namenode进程启动不成功。根据自身经历进行记录。
  • Hadoop集群配置(最全面总结)

    万次阅读 多人点赞 2012-02-06 17:15:34
    Hadoop集群配置(最全面总结) huangguisu  通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\...
  • Hadoop集群配置及运行一、集群配置二、运行 一、集群配置 1、修改安装好的hadoop260文件的用户权限,修改为root用户 chown -R root:root hadoop260/ 2、设置JDK,进入安装好的hadoop260文件下的etc/hadoop/目录下...
  • hadoop集群搭建 免密登陆的配置

    千次阅读 2022-05-04 16:41:22
    二、搭建3节点的集群 1 准备3个虚拟机 克隆2个虚拟机 先关闭虚拟机node1 配置虚拟机 修改ip地址 vim /etc/sysconfig/network-scripts/ifcfg-ens33 修改主机名称 vi /etc/hostname ...
  • Hadoop集群配置、启动YARN

    千次阅读 2020-05-29 17:12:27
    本篇在 Hadoop集群启动HDFS 的基础上继续配置   YARN启动: 配置mapred-site.xml(复制mapred-site.xml.template配置模板生成mapred-site.xml): cp /usr/local/hadoop/hadoop-2.9.2/etc/hadoop/mapred-site....
  • 部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 170,379
精华内容 68,151
关键字:

hadoop集群配置

友情链接: tapkbarsgrxup.rar