精华内容
下载资源
问答
  • hadoop伪分布式搭建(从虚拟机设置到搭建完成),包含每一个步骤,照做即可,内有hadoop2.2.0安装包。
  • 在VMware虚拟机上,安装hadoop集群,采用的是伪分布式搭建,从安装jdk到hadoop的环境配置,全套都有,依据这个文档可以在个人Vmware上搭建自己的hadoop集群,这个集群有一个主节点,两个从节点。按照这个文档搭建后...
  • hadoop伪分布式搭建.doc

    2020-10-07 08:46:04
    hadoop集群环境搭建之伪分布式集群环境搭建,本文档详细的介绍了伪分布式搭建过程以及搭建过程中遇到的一些问题
  • 详细的hadoop2 伪分布式环境搭建以及eclipse部署。demo示例代码测试运行。文中有插件包。资源包等参考链接参考下载。
  • 这里有hadoop的简介,比如MR,Yarn,HDfs,还有一些详细的介绍。以及伪分布式搭建,同样是图文的方式去写的,配置基本上是一层接一层的去做的,所以有阶段性,可以一阶段一阶段的去配。
  • Hadoop 伪分布式搭建(超详细)

    万次阅读 多人点赞 2020-06-24 17:44:34
    Hadoop伪分布式搭建虚拟机准备阶段操作安全设置防火墙相关指令关闭关闭selinuxIP设置查看机器IP修改主机名修改IP及主机名映射SSH免密登陆Hadoop伪分布式搭建JDK配置解压配置环境变量Hadoop配置解压文件修改配置文件...

    虚拟机准备阶段操作

    本文是基于CentOS 7 系统搭建
    相关资源下载
    链接:https://pan.baidu.com/s/1FW228OfyURxEgnXW0qqpmA 密码:18uc

    安全设置

    防火墙相关指令

    # 查看防火墙状态
    firewall-cmd --state
    
    # 停止防火墙
    [root@localhost ~]# systemctl stop firewalld.service
    
    # 禁止防火墙开机自启
    [root@localhost ~]# systemctl disable firewalld.service 
    

    关闭关闭selinux

    [root@localhost ~]# vi /etc/selinux/config
    

    SELINUX=enforcing改为 SELINUX=disabled

    IP设置

    查看机器IP

    [root@localhost ~]# ifconfig
    ip 为192.168.78.100
    

    修改主机名

    [root@localhost ~]# vi /etc/hostname 
    

    在这里插入图片描述

    修改IP及主机名映射

    [root@localhost ~]# vi /etc/hosts
    192.168.78.100	CentOS
    

    SSH免密登陆

    [root@localhost ~]# ssh-keygen -t rsa # 生产密钥
    # 连续三次回车
    
    
    # 将密钥发送给需要登陆本机的机器,这里只有一台机器 所以发给自己
    [root@localhost ~]# ssh-copy-id root@CentOS
    
    # 测试ssh
    [root@localhost ~]# ssh root@CentOS
    

    Hadoop伪分布式搭建

    • 创建 install文件夹
    [root@localhost ~]# mkdir /opt/install/
    

    JDK配置

    这里选用JDK8

    解压

    [root@localhost ~]# tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/install/
    

    配置环境变量

    [root@localhost jdk1.8.0_144]# vi /etc/profile
    # 加入配置 加入位置如下图所示
    export JAVA_HOME=/opt/install/jdk1.8.0_144
    export PATH=$PATH:$JAVA_HOME/bin
    
    # 保存后刷新环境变量
    [root@localhost jdk1.8.0_144]# source /etc/profile
    

    在这里插入图片描述

    # 刷新完 执行命令验证JDK是否安装成功
    [root@localhost jdk1.8.0_144]# java -version
    

    成功界面
    在这里插入图片描述

    Hadoop配置

    解压文件

    [root@localhost ~]# tar -zxvf hadoop-2.9.2.tar.gz -C /opt/install/
    

    修改配置文件

    [root@localhost ~]# cd /opt/install/hadoop-2.9.2/etc/hadoop
    
    • hadoop-env.sh
    export JAVA_HOME=/opt/install/jdk1.8.0_144
    

    在这里插入图片描述

    • core-site.xml
    	   <!--  用于设置namenode并且作为Java程序的访问入口  -->
           <property>
                <name>fs.defaultFS</name>
                <value>hdfs://CentOS:8020</value>
           </property>
           <!--  存储NameNode持久化的数据,DataNode块数据  -->
           <!--  手工创建$HADOOP_HOME/data/tmp  -->
           <property>
                 <name>hadoop.tmp.dir</name>
                 <value>/opt/install/hadoop-2.9.2/data/tmp</value>
           </property>
    

    在这里插入图片描述

    • hdfs-site.xml
     <!--  设置副本数量 默认是3 可自行根据需求更改  -->
            <property>		
                <name>dfs.replication</name>
                <value>3</value>
            </property>
    <!--  权限,可省略  -->
             <property>
                 <name>dfs.permissions.enabled</name>
                 <value>false</value>
              </property>
              <property>
                  <name>dfs.namenode.http.address</name>
                  <value>CentOS:50070</value>
               </property>
    

    在这里插入图片描述

    • mapred-site.xml
      首先拷贝一个mapred-site.xml
    [root@localhost hadoop]# cp mapred-site.xml.template mapred-site.xml
    
    <!--  yarn 与 MapReduce相关  -->
           <property>	 	        		
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
           </property>
    

    在这里插入图片描述

    • yarn-site.xml
     <property>
              <name>yarn.nodemanager.aux-services</name>
              <value>mapreduce_shuffle</value>
      </property>
    

    在这里插入图片描述

    • slaves
      这里配置DataNode的主机名 伪分布式情况下这里NameNode也充当DataNode
    CentOS
    

    在这里插入图片描述

    配置Hadoop环境变量

    [root@localhost hadoop-2.9.2]# vim /etc/profile
    # 加入
    export HADOOP_HOME=/opt/install/hadoop-2.9.2
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    

    在这里插入图片描述

    # 刷新环境变量
    [root@localhost hadoop-2.9.2]# source /etc/profile
    

    验证环境变量是否配置成功

    [root@localhost hadoop-2.9.2]# hadoop version
    

    在这里插入图片描述

    格式化NameNode

    目的作用:格式化hdfs系统,并且生成存储数据块的目录

    [root@localhost hadoop-2.9.2]# hadoop namenode -format 
    

    格式化成功后如图显示
    在这里插入图片描述

    Hadoop起停命令

       start-all.sh
       stop-all.sh
    

    启动成后 jps查看进程
    在这里插入图片描述

    查看WebUI界面

    http://CentOS:50070 访问 hdfs
    http://CentOS:8088 访问 yarn
    在这里插入图片描述
    在这里插入图片描述

    Hadoop 3.0以上看这里

    在Hadoop3.0后会有一些身份的配置,如果照上面配置 启动后会抛出以下异常:

    Starting namenodes on [namenode]
    ERROR: Attempting to operate on hdfs namenode as root
    ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
    Starting datanodes
    ERROR: Attempting to operate on hdfs datanode as root
    ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
    Starting secondary namenodes [datanode1]
    ERROR: Attempting to operate on hdfs secondarynamenode as root
    ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.
    Starting resourcemanager
    ERROR: Attempting to operate on yarn resourcemanager as root
    ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation.
    Starting nodemanagers
    ERROR: Attempting to operate on yarn nodemanager as root
    ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting operation.
    

    此时需要去hadoop的sbin目录下做一下小改动

    在start-dfs.sh 和 stop-dfs.sh 中 新增!!!

    HDFS_DATANODE_USER=root
    HADOOP_SECURE_DN_USER=hdfs
    HDFS_NAMENODE_USER=root
    HDFS_SECONDARYNAMENODE_USER=root 
    

    在start-yarn.sh 和 stop-yarn.sh 中 新增!!!

    YARN_RESOURCEMANAGER_USER=root
    HADOOP_SECURE_DN_USER=yarn
    YARN_NODEMANAGER_USER=root
    

    修改完保存重启可解决

    展开全文
  • hadoop伪分布式集群搭建(三、hadoop伪分布式搭建)前提一、修改主机名及网络ip映射(/etc/hostname、/etc/hosts)二、修改hadoop配置文件,搭建伪分布式集群三、启动集群(启动集群先一定要先检查IP是否改动!...


    # 系列文章目录

    hadoop伪分布式集群搭建(一、虚拟机安装)
    hadoop伪分布式集群搭建(二、jdk,hadoop安装)
    hadoop伪分布式集群搭建(三、hadoop伪分布式搭建)


    ==>前提

    hadoop伪分布式集群搭建(一、虚拟机安装)中的操作已经完成。
    hadoop伪分布式集群搭建(二、jdk,hadoop安装)中的操作已经完成。


    一、修改主机名及网络ip映射(/etc/hostname、/etc/hosts)

    1. 使用ifconfig查看当前虚拟机网络ip
      在这里插入图片描述

    2. 修改主机名为Linux
      sudo vi /etc/hostname
      将文件中的内容改为所用的主机名Linux即可,

    3. 修改ip映射
      sudo vi /etc/hosts

    4. 将当前ip与主机名映射添加到其中
      192.168.64.132 Linux


    二、修改hadoop配置文件,搭建伪分布式集群

    先进入到/home/hadoop/softwares/hadoop/etc/hadoop目录下 (为了防止hadoop下的文件访问没有权限,可以先执行 sudo chmod -R 777 ~/softwares/hadoop),下面就修改文件就可以不用使用sudo

    1. 修改hadoop-env.sh文件
      sudo vi hadoop-env.sh
      使用:set nu命令设置行号,找到37行,在38行追加内容:
      export JAVA_HOME=/home/hadoop/softwares/jdk
    2. 修改core-site.xml文件
      sudo vi core-site.xml
      <configuratiom></configuration>标签中添加以下内容:
    	<property>
    		<name>fs.defaultFS</name>
    		<value>hdfs://Linux:9000</value>
    		<!-- Linux为主机名,对应主机名映射ip -->
    	</property>
    	<property>
    		<name>hadoop.tmp.dir</name>
    		<!-- 需要在相应位置创建目录 -->
    		<value>/home/hadoop/softwares/hadoop/da/tmp</value>
    	</property>
    
    1. 修改hdfs-site.xml文件
      sudo vi hdfs-site.xml
      <configuratiom></configuration>标签中添加以下内容:
    	<!--hdfs的备份因子,1就是只有一个备份。也就是只有一份-->
    	<property>
    		<name>dfs.replication</name>
    		<value>1</value>
    	</property>
    	<!-- hdfs集群的名称 -->
    	<property>
    		<name>dfs.nameservices</name>
    		<!-- hdfs集群的名称可以随意取 -->
    		<value>hadoop-cluster</value>
    	</property>
    		<!-- 配置nameNode第二节点的位置-->
    	<property>
    		<name>dfs.namenode.secondary.http-address</name>
    		<value>Linux:50090</value>
    		<!-- Linux为主机名  -->
    	</property>
    	<!-- hdfs集群web访问的地址,
    	这句不配置访问的路径就是localhost:9870-->
    	<!--<property>
    	  <name>dfs.http.address</name>
    	  <value>Linux:9870</value>
    	</property>-->
    	<!-- hdfs集群上 块的大小 -->
    	<property>
    		<name>dfs.blocksize</name>
    		<value>32m</value>
    	</property>
    	<!-- hdfs集群的namenode(主节点) 运行过程中的中间数据存放位置 -->
    	<property>
    		<name>dfs.namenode.name.dir</name>
    		<!-- 需要在相应位置创建目录 -->
    		<value>/home/hadoop/softwares/hadoop/da/namenode</value>
    	</property>
    	<!-- hdfs集群的datanode(从节点) 数据存放位置 -->
    	<property>
    		<name>dfs.datanode.data.dir</name>
    		<!-- 需要在相应位置创建目录 -->
    		<value>/home/hadoop/softwares/hadoop/da/datanode</value>
    	</property>
    	<property>
    		<name>fs.checkpoint.dir</name>
    		<!-- 需要在相应位置创建目录 -->
    	    <value>/home/hadoop/softwares/hadoop/hdfs/snamenode</value>
    	</property>
    	<property>
    		<name>dfs.name.dir</name>
    		<!-- 需要在相应位置创建目录 -->
    		<value>/home/hadoop/softwares/hadoop/da/namenodeData</value>
    	</property>
    	<property>
    		<name>dfs.data.dir</name>
    		<!-- 需要在相应位置创建目录 -->
    		<value>/home/hadoop/softwares/hadoop/da/datanodeData</value>
    	</property>
    
    1. 修改mapred-site.xml文件
      sudo vi mapred-site.xml
      <configuratiom></configuration>标签中添加以下内容:
    	<property>
    		<name>mapreduce.framework.name</name>
    		<value>yarn</value>
    	</property>
    	<property>
    		<name>mapreduce.map.memory.mb</name>
    		<value>1024</value>
    		<description>每个Map任务的物理内存限制</description>
    	</property>
    	<property>
    		<name>mapreduce.reduce.memory.mb</name>
    		<value>1536</value>
    		<description>每个Reduce任务的物理内存限制</description>
    	</property>
    	<property>
    		<name>mapreduce.map.java.opts</name>
    		<value>-Xmx512M</value>
    	</property>
    	<property>
    		<name>mapreduce.reduce.java.opts</name>
    		<value>-Xmx1024M</value>
    	</property>
    
    1. 修改yarn-site.xml文件
      sudo vi yarn-site.xml
      <configuratiom></configuration>标签中添加以下内容:
    	<!-- yarn集群的 resource manager 地址,主机名 -->
    	<property>
    		<name>yarn.resourcemanager.hostname</name>
    		<!-- 这个Linux是计算机名 etc中hostname可以查看到 -->
    		<value>Linux</value>
    	</property>
    	<!-- 指定resourceManager的网页地址 -->
    	<property>
    		<name>yarn.resourcemanager.webapp.address</name>
    		<!-- Linux为主机名 -->
    		<value>Linux:8088</value>
    	</property>
    	<property>
    		<name>yarn.nodemanager.local-dirs.hostname</name>
    		<value>/home/hadoop/softwares/hadoop/da/namenode</value>
    	</property>
    	<!-- MapReduce运行的模式是什么,混洗 -->
    	<property>
    		<name>yarn.nodemanager.aux-services</name>
    		<value>mapreduce_shuffle</value>
    	</property>
    	<property>
    		<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    		<value>org.apache.hadoop.mapred.ShuffleHandler</value>
    	</property>
    	<property>
    		<name>yarn.nodemanager.log-dirs</name>
    		<!-- 需要在相应位置创建目录 -->
    		<value>/home/hadoop/softwares/hadoop/da/yarn/logs</value> 
    	</property>
    	<property>
    		<name>yarn.application.classpath</name>
    		<!-- 下列内容在命令行输入hadoop classpath可以得到,复制粘贴到这即可 -->
    		<value>/home/hadoop/softwares/hadoop/etc/hadoop:/home/hadoop/softwares/hadoop/share/hadoop/common/lib/*:/home/hadoop/softwares/hadoop/share/hadoop/common/*:/home/hadoop/softwares/hadoop/share/hadoop/hdfs:/home/hadoop/softwares/hadoop/share/hadoop/hdfs/lib/*:/home/hadoop/softwares/hadoop/share/hadoop/hdfs/*:/home/hadoop/softwares/hadoop/share/hadoop/mapreduce/lib/*:/home/hadoop/softwares/hadoop/share/hadoop/mapreduce/*:/home/hadoop/softwares/hadoop/share/hadoop/yarn:/home/hadoop/softwares/hadoop/share/hadoop/yarn/lib/*:/home/hadoop/softwares/hadoop/share/hadoop/yarn/*</value>
    	</property>
    	<!—下列内容是以虚拟机2G内存为基础配置的,防止MapReduce运行时内存不足 -->
    	<property>
    		<name>yarn.nodemanager.vmem-check-enabled</name>
    		<value>false</value>
    	</property>
    	<property>
        	<name>yarn.nodemanager.resource.memory-mb</name> 
        	<value>4096</value>
      	</property>
      	<property>
        	<name>yarn.nodemanager.resource.cpu-vcores</name> 
        	<value>1</value>
      	</property>
      	<property>
        	<name>yarn.scheduler.maximum-allocation-mb</name> 
        	<value>2048</value>
      	</property>
      	<property>
        	<name>yarn.scheduler.minimum-allocation-mb</name>
        	<value>1024</value>
      	</property>
    

    三、启动集群(启动集群先一定要先检查IP是否改动!!!)

    1. 一般启动方式:
    	hadoop-daemon.sh start namenode
    	hadoop-daemon.sh start datanode
    	yarn-daemon.sh start resourcemanager
    	yarn-daemons.sh start nodemanager
    
    1. 一般关闭方式:
    	hadoop-daemon.sh stop namenode
    	hadoop-daemon.sh stop datanode
    	yarn-daemon.sh stop resourcemanager
    	yarn-daemons.sh stop nodemanager
    
    1. 一键启动:
    • 需要先配置ssh免密登录
      建议先登录到root用户再执行下载安装命令
      apt-get install openssh-server
      apt-get install ssh

    • 使用 ssh 用户名@主机名 进行ssh登录
      ssh briup@Linux

    • 退出登录后,执行
      ssh-keygen -t rsa
      cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
      再次使用登录验证免密登录

    • 如果免密登录失败,执行:
      rm -r ~/.ssh

    • 回到第三步重新执行

    1. 一键启动:
      start-all.sh

    2. 一键关闭:
      stop-all.sh


    四、使用jps及以下两个网页等检测集群启动情况(Linux为主机名,可以改为ip)

    1. 在虚拟机中浏览器可使用:
      http://Linux:9870
      http://Linux:8088

    2. 在自己本机上浏览器可使用:
      http://192.168.64.132:9870
      http://192.168.64.132:8088

    3. 如果集群启动正常,有如下五个进程:
      jps、namenode、datanode、resourcemanager、nodemanager
      在这里插入图片描述

    4. 使用一个简单的例子进行测试,依次执行以下命令:
      cd ~/softwares/hadoop/share/hadoop/mapreduce
      yarn jar hadoop-mapreduce-examples-3.0.3.jar pi 4 10
      得到如下结果,pi的值为3.400000000000000000
      在这里插入图片描述


    #系列文章目录

    hadoop伪分布式集群搭建(一、虚拟机安装)
    hadoop伪分布式集群搭建(二、jdk,hadoop安装)
    hadoop伪分布式集群搭建(三、hadoop伪分布式搭建)

    展开全文
  • Hadoop伪分布式搭建

    千次阅读 2017-10-30 21:20:08
    Hadoop伪分布式搭建

    安装虚拟机及linux系统(本文以CentOS为例)

      请自行百度.


    创建hadoop用户

    # 创建hadoop用户(su root用户创建)
    useradd -m hadoop -s /bin/bash
    # 设置密码
    passwd hadoop

      切换到hadoop用户登陆linux.


    修改主机名

    sudo vim /etc/hostname
    # 在haotname中输入用户名,再次以 ylitech为例.
    
    # (若不能使用sudo:)
    # 切换到root用户,为/etc/sudoers文件添加写权限:
    chmod u+w /etc/sudoers
    # vim /etc/sudoers
    # 复制 root ALL ... 那一行
    # 把root改为自己的用户名.保存退出:wq

    修改映射

    sudo vim /etc/hosts
    # 在文件中添加本机Ip(ifconfig可以查看ip) 和用户名
    # 例:
    192.168.160.130  ylitech

    配置ssh免密码登陆

    首先测试ssh是否安装,

    rpm -qa | grep ssh

    若返回的结果中包括SSH client和SSH server ,则不需要再安装.
    若为安装,通过:

    sudo yum install openssh-clients
    sudo yum install openssh-server

    接着执行ssh localhost 测试ssh是否可用,exit 可以退出ssh。

    设置免密码登陆:

    cd ~/.ssh
    ssh-keygen -t rsa   # 通过ssh-keygen命令来生成密钥对在.ssh目录下(会有提示,回车即可)。
    # 此命令执行后,会在~/.ssh目录下生成私钥id_rsa 和公钥id_rsa.pub
    cat id_rsa.pub >> authorized_keys   # 将id_rsa.pub中的公钥信息保存到authorized_keys中.
    chmod 600 ./authorized_keys     # 修改文件授权.
    

    这时再用ssh localhost命令,无需密码即可直接登陆。


    JDK的安装.

    到网上下载jdk,本例使用的是jdk-9.0.1

    # 首先使用tar命令解压jdk到/usr/local目录下.
    sudo tar -zxvf jdk-9.0.1_linux-x64_bin.tar -C /usr/local
    
    # 接着需要配置JAVA环境变量.
    vim ~/.bashrc
    # 在文件最后添加
    export JAVA_HOME=/usr/local/jdk-9.0.1-1
    export PATH=$JAVA_HOME/bin:$PATH
    
    # 接下来需要使用source命令是环境变量生效.
    source ~/.bashrc

    若环境变量配置正确,在终端输入java -version即可查看java版本.


    安装hadoop

    同上,在网上下在hadoop,(在此以hadoop-2.8.2为例)

    sudo tar -zxvf hadoop-2.8.2.tar.gz -C /usr/local
    # 将hadoop解压到/usr/local
    sudo mv hadoop-2.8.2 hadoop 
    # 将文件夹重命名为hadoop(可选,方便后续添加环境变量)
    sudo chown hadoop:hadoop hadoop 
    # 将hadoop文件夹所属用户和组修改为hadoop用户和hadoop组.

    若安装成功,在cd /usr/local/hadoop 文件夹下输入./bin/hadoop version 即可查看hadoop版本.


    Hadoop伪分布式配置

    1> 配置环境变量

    vim ~/.bashrc
    # 在文件最后添加:
    export HADOOP_HOME=/usr/local/hadoop
    export HADOOP_INSTALL=$HADOOP_HOME
    export HADOOP_MAPRED_HOME=$HADOOP_HOME
    export HADOOP_COMMON_HOME=$HADOOP_HOME
    export HADOOP_HDFS_HOME=$HADOOP_HOME
    export YARN_HOME=$HADOOP_HOME
    export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
    # 保存推出 :wq
    # 使用source命令,是环境变量生效.
    source ~/.bashrc

    2> 修改/usr/local/hadoop/etc/hadoop 文件夹下的core-site.xml配置文件.

    默认情况下,Hadoop将数据保存在/tmp下,当重启系统时,/tmp中的内容将被自动清空,所以我们需要制定自己的一个Hadoop的目录,用来存放数据。另外需要配置Hadoop所使用的默认文件系统,以及Namenode进程所在的主机。

    <configuration>
    <property>
        <!-- 指定hadoop运行时产生文件的存储路径 -->
        <name>hadoop.tmp.dir</name
        <value>file:/usr/local/hadoop/tmp</value>
        <description>A base for other temporary directories.</description>
    </property>
    <property>
        <!-- hdfs namenode的通信地址 -->
        <name>fs.defaultFS</name>
        <value>hdfs://ylitech:9000</value>
    </property>
    </configuration>

    3> 修改hdfs-site.xml配置文件.
    该文件指定与HDFS相关的配置信息。需要修改HDFS默认的块的副本属性,因为HDFS默认情况下每个数据块保存3个副本,而在伪分布式模式下运行时,由于只有一个数据节点,所以需要将副本个数改为1;否则Hadoop程序会报错。

    <configuration>
    <property>
        <!-- 指定HDFS存储数据的副本数目,默认情况下是3份-->
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <!-- name node 存放 name table 的目录 -->
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
    <!-- data node 存放数据 block 的目录 -->
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
    </configuration>
    

    4> mapred-site.xml配置
    在该配置文件中指定与MapReduce作业相关的配置属性,需要指定JobTracker运行的主机地址。
    /usr/local/hadoop/etc/hadoop文件夹中并没有mapred-site.xml文件,但提供了模板mapred-site.xml.template 将其重命名为mapred-site.xml 即可。

    mv mapred-site.xml.template mapred-site.xml
    
    vim mapred-site.xml
    # 修改配置文件:
    <configuration>
    <property>
        <!-- 指定mapreduce 编程模型运行在yarn上 -->
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    </configuration>
    

    5> 修改yarn-site.xml配置文件

    vim yarn-site.xml
    
    <configuration>
    <property>
        <!-- mapreduce执行shuffle时获取数据的方式 -->
        <name>yarn.nodemanager.auxservices</name>
        <value>mapreduce_shuffle</value>
    </property>
    </configuration>
    

    Hadoop namenode格式化

    hdfs namenode -format
    # 成功的话会看到"successfully formatted""Exitting with status 0" 的提示,若为 "Exitting with status 1" 则是出错。

    关闭防火墙

    sudo service iptables stop      # 关闭防火墙服务。
    sudo chkconfig iptables off     # 禁止防火墙开机自启。

    Hadoop启动

    cd /usr/local/hadoop/sbin
    ./start-all.sh      # 启动所有的hadoop服务,包括hdfs和yarn.

    命令执行完成后输入jps命令若有5个进程:namenode、secondarynamenode、datanode、resourcemanager、nodemanager,则表示启动成功。

    可以通过web访问http://ylitech:50070 查看NameNode和DataNode信息。

    访问web界面:http://ylitech:8088 可以查看mapreduce运行情况。


    至此hadoop伪分布式即安装成功。

    展开全文
  • 适用于《shell脚本配置伪分布式Hadoop
  • 大数据hadoop平台伪分布式搭建详细步骤,基于ubtuntu系统,供初学者学习使用。... 大数据hadoop平台伪分布式搭建详细步骤,基于ubtuntu系统,供初学者学习使用。...
  • hadoop伪分布式搭建

    千次阅读 2021-09-19 20:10:57
    开始之前,先将jdk和hadoop的安装包上传到/root,目录下 1.安装jdk 创建安装目录 mkdir /usr/local/java 解压jdk tar -zxvf jdk-8u152-linux-x64.tar.gz -C mkdir /usr/local/java 改个好写的名字 mv /usr/local/...

    开始之前,先将jdk和hadoop的安装包上传到/root目录下
    关防火墙

    systemctl stop firewalld
    systemctl disable firewalld
    

    查看防火墙状态

    systemctl status firewalld
    

    1.修改主机名

    hostnamectl set-hostname hadoop
    bash
    

    2.配置主机映射

    vi /etc/hosts
    

    末尾添加

    192.168.26.148 hadoop
    

    3.安装jdk

    (1)解压jdk

    tar -zxvf jdk-8u152-linux-x64.tar.gz  -C  /usr/
    

    (2)改个好写的名字

    mv /usr/jdk1.8.0_152 /usr/jdk
    

    (3)配置环境变量

    vi /etc/profile
    

    (4)写入jdk安装路径

    export JAVA_HOME=/usr/jdk
    export PATH=$PATH:$JAVA_HOME/bin 
    

    (5)刷新环境变量

    source /etc/profile
    

    (6)检查jdk是否安装成功

    java -version
    

    4.配置免密登录

    生成密钥对,使用命令

    ssh-keygen -t rsa
    

    三次回车,不需要输入

    ssh-copy-id -i /root/.ssh/id_rsa.pub hadoop
    

    输入yes和root密码
    (5)测试免密登录

    ssh hadoop
    

    exit退出

    5.hadoop的安装

    (1)解压

    tar -zxvf hadoop-2.7.1.tar.gz -C  /usr/
    

    (2)改名

    mv /usr/hadoop-2.7.1/ /usr/hadoop
    

    (3)配置环境变量

    vi /etc/profile
    

    (4)写入下列内容

    #hadoop
    export HADOOP_HOME=/usr/hadoop
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    

    (6)刷新环境变量

    source /etc/profile
    

    6.配置hdfs

    (1)配置环境变量hadoop-env.sh

    vi /usr/hadoop/etc/hadoop/hadoop-env.sh
    

    找到JAVA_HOME参数位置大概在25行,修改为本机安装的JDK的实际位置(末行模式下,输入set nu 显示行号)

    export JAVA_HOME=/usr/jdk
    

    (2)配置核心组件core-site.xml

    vi /usr/hadoop/etc/hadoop/core-site.xml 
    

    该文件是Hadoop的核心配置文件,其目的是配置HDFS地址、端口号,以及临时文件目录。
    在,写入以下配置文件

    <!-- HDFS集群中NameNode的URI(包括协议、主机名称、端口号),默认为 file:/// -->
    <property>
    <name>fs.defaultFS</name>
    <!-- 用于指定NameNode的地址 -->
    <value>hdfs://localhost:9000</value>
    </property>
    <!-- Hadoop运行时产生文件的临时存储目录 -->
    <property>
    <name>hadoop.tmp.dir</name>
    <value>/root/hadoopData/temp</value>
    </property>
    

    (3)配置文件系统hdfs-site.xml

    vi /usr/hadoop/etc/hadoop/hdfs-site.xml
    

    该文件主要用于配置 HDFS 相关的属性,例如复制因子(即数据块的副本数)、NameNode 和 DataNode 用于存储数据的目录等。在完全分布式模式下,默认数据块副本是3 份。现在搭建的是伪分布,所以是1
    在,写入以下配置文件

    <!-- NameNode在本地文件系统中持久存储命名空间和事务日志的路径 -->
    <property>
    <name>dfs.namenode.name.dir</name>
    <value>/root/hadoopData/name</value>
    </property>
    <!-- DataNode在本地文件系统中存放块的路径 -->
    <property>
    <name>dfs.datanode.data.dir</name>
    <value>/root/hadoopData/data</value>
    </property>
    <!-- 数据块副本的数量,默认为3 -->
    <property>
    <name>dfs.replication</name>
    <value>1</value>
    </property>
    

    (4)配置slaves文件

    vi /usr/hadoop/etc/hadoop/slaves 
    

    其默认内容为localhost,因为我们搭建的是伪分布式集群,就只有一台主机,所以从节点也需要放在此主机上,所以此配置文件无需修改

    (5)格式化hdfs

    hdfs namenode -format
    

    (6)启动hdfs

    start-dfs.sh
    

    在本机上执行 jps 命令,在打印结果中会看到4 个进程,分别是 NameNode、SecondaryNameNode、Jps、和DataNode,如果出现了这 4 个进程表示HDFS启动成功。

    7.配置yarn

    主要配置文件说明
    在这里插入图片描述
    (1)配置环境变量yarn-env.sh

    vi /usr/hadoop/etc/hadoop/yarn-env.sh
    

    大概在23行,修改jdk的安装路径
    要删除前面的#号

    export JAVA_HOME=/usr/jdk
    

    (2)配置计算框架mapred-site.xml
    在$HADOOP_HOME/etc/hadoop/目录中默认没有该文件,需要先通过如下命令将文件复制并重命名为“mapred-site.xml”

    cd /usr/hadoop/etc/hadoop/ 
    cp mapred-site.xml.template mapred-site.xml
    vi mapred-site.xml
    
    

    (3)编辑mapred-site.xml,在 之间写入下列内容

    <!-- 指定使用 YARN 运行 MapReduce 程序,默认为 local -->
    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>
    

    (4)配置YARN系统yarn-site.xml
    编辑yarn-site.xml,在 之间写入下列内容

    <!-- NodeManager上运行的附属服务,也可以理解为 mapreduce 获取数据的方式 -->
    <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    </property>
    

    (5)启动yarn

    start-yarn.sh
    

    jps查看出现 ResourceManager进程,NodeManager 守护进程
    一共6个进程
    在这里插入图片描述

    通过本机的浏览器访问http://localhost:8088或http://本机IP地址:8088查看YARN集群状态如下
    在这里插入图片描述

    8.错误调试

    如果启动dfs没有出现4个进程,先stop-dfs.sh关闭dfs。应该是配置文件写错了,仔细查看,改正
    然后去/root目录删除hadoopData及其子目录

    rm -rf hadoopData
    

    然后重新格式化,并启动即可

    展开全文
  • Hadoop 伪分布式搭建

    2021-01-11 23:25:06
    Hadoop 伪分布式搭建 一.工具准备 搭建伪分布式的hadoop的工具资料](https://pan.baidu.com/s/1aqWgeL_wBeMIzBTI8ZHo-w) 提取码:A2wq tip:本资料仅供学习使用,不支持商业用途,还请支持正版     二.工具...
  • 目前已探索完成伪分布式搭建部署,完全分布式还未建立,后续更新.开始: 一. 修改主机名j建立映射 1.查看机器IP ifconfig 2. 查看主机名 vim /etc/hostname 3. sudo vim /etc/hosts填写 ip hostname 二. 免登陆设置...
  • 如果用的是 CentOS/RedHat 系统,请查看相应的CentOS安装Hadoop教程_单机伪分布式配置。 本教程基于原生 Hadoop 2,在 Hadoop 2.6.0 (stable) 版本下验证通过,可适合任何 Hadoop 2.x.y 版本,如 Hadoop 2.7.1、...
  • 如何搭建hadoop伪分布式,https://blog.csdn.net/lzw2016/article/details/84197986 该资源是文中所提的配置文件,建议看完文章后,下载使用。
  • Hadoop 伪分布式搭建-附件资源
  • Hadoop伪分布式搭建实验总结

    千次阅读 2019-01-13 13:02:35
     通过本次实验,只是简单掌握了Hadoop伪分布式搭建过程,对于完全分布式没有做成功,也是很遗憾,因为时间紧张,在截至提交实验报告前,完全分布式遇到了点问题,到现在还没有解决。因为笔记本配置比较低,硬盘...
  • hadoop伪分布式搭建.zip

    2020-03-23 17:25:06
    hadoop伪分布式搭建
  • 今天分享一下我之前安装伪分布式整理的干货。 安装过程(采用和完全分布式集群一样的步骤): 【建议】安装部署Hadoop,使用linux的管理员root用户登录。 1.关闭防火墙 使用root用户登录,打开命令行终端:点击左上...
  • Hadoop伪分布式搭建详细步骤

    千次阅读 2018-05-22 18:42:51
    hadoop伪分布搭建流程---------------------------- 1.通过挂在上传软件至/home/hyxy/soft $&gt;cp jdk1.8.XXX.tar.gz ~/soft $&gt;cp hadoop.2.7.3.tar.gz ~/soft 2.解压相关软件 $&gt;tar -zxvf ...
  • hadoophadoop-3.2.1 终端连接软件:SecureCRT 关于Centos7的网络配置可以看我的另一篇博客:Centos7的网络配置 一、利用SecureCRT上传文件到root目录 二、关闭防火墙 按顺序执行命令:iptables -F;iptables -X;...
  • 四个文件地址全部在/opt/hadoop/etc/hadoop下 1.core-site.xml <!--指定HDFS中NameNode的地址--> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop1:9000</valu
  • VMware上CentOS7.0+Hadoop3.1伪分布式搭建

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,693
精华内容 6,277
关键字:

hadoop伪分布式搭建