精华内容
下载资源
问答
  • 超详细集群搭建教程(从虚拟机安装到集群搭建完成,集群搭建成功验证),每一个步骤都有,照做即可。 内有集群搭建所需安装包:hadoop2.2.0,zookeeper3.4.5
  • Hadoop集群搭建的详细步骤,涉及Linux:Centos6.5基础环境配置,Hadoop集群离线部署方式。
  • Hadoop集群搭建总结

    2016-10-21 11:06:24
    重点描述hadoop2.0的大数据处理环境搭建过程
  • hadoop集群搭建

    2018-12-04 19:24:30
    大数据hadoop单机集群搭建的详细步骤及图片文字说明;三台虚拟机的单机系统
  • hadoop集群搭建步骤

    2019-01-10 22:29:38
    该文档提供了linux环境中搭建hadoop集群(大数据)的步骤,个人认为比较详细,供大家学习
  • Linux 操作系统安装环境下Hadoop集群搭建详细简明教程
  • 包含hadoop-2.6.4.tar包、搭建集群详情文档(每一步的步骤及代码、搭建前的环境配置)。亲测可成功运行。
  • Hadoop集群搭建及Hive的安装与使用文档,详细记录操作步骤,该文档对于大数据平台搭建,及现场实施人员有非常大的帮助,使刚接触的人员,很容易上手。
  • 详细的Hadoop集群搭建过程,有6部分,前提是能连接网络,前三部都是很简单免密要仔细看,推荐JAVA版本1.8,Hadoop版本2.2.7 这两个版本都是稳定的
  • hadoop配置文件修改 先进入hadoop配置文件所在路径: cd /usr/local/src/hadoop-2.6.1/etc/hadoop 修改slaves vim slaves 修改core-site.xml vim core-site.xml fs.defaultFS hdfs://192.168.43.10:9000 #主机...
  • 虚拟机为三台,配置都是1G内存,1核处理器,20G存储空间。文件中有hadoop几个主要文件的配置,只需要复制粘贴到相应的配置文件中,即可运行集群。IP需要根据自己的机器改动。适合初学者。
  • 本文档深刻解析了hadoop集群搭建的过程,有自己编写的过程,有完整的搭建过程。
  • 脚本搭建hadoop集群

    2020-06-08 14:46:08
    脚本搭建hadoop集群 可以自定义主机名和IP地址 可以自定义安装jdk和hadoop(格式为*tar.gz) 注意事项 1、安装完jdk和hadoop请手动source /etc/profile 刷新环境变量 2测试脚本环境为centOS6,其他操作系统会有些...
  • Hadoop集群搭建

    2015-07-22 14:39:13
    Hadoop集群搭建详细的描述了hadoop集群的搭建过程,值得大家去学习。
  • hadoop集群搭建教程

    2018-03-07 10:37:48
    在虚拟机上面搭建hdfs 集群亲测可用 记得 修改ip地址就行
  • hbase-2.1.3-bin.tar.gz,hadoop-3.1.2.tar.gz,hadoop-2.7.4.tar.gz,flink-1.7.2-bin-hadoop27-scala_2.11.tgz,apache-hive-3.1.1-bin.tar.gz,apache-hive-2.3.5-bin.tar.gz,以及一些推荐的集群搭建配置文件,...
  • 本文档是关于在mac环境下hadoop虚拟集群搭建,文中详细写了从虚拟机安装到hadoop安装完成的步骤。
  • Hadoop集群搭建 集群简介 集群部署方式 1、Standalone mode(独立模式) 2、Pseudo-Distributed mode(伪分布式模式) 3、Cluster mode(群集模式)-单节点模式-高可用HA模式 集群环境准备 hadoop重新编译 ...

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习。

    有对大数据感兴趣的可以关注微信公众号:三帮大数据

    目录

    Hadoop集群搭建

    集群简介

    集群部署方式

    1、Standalone mode(独立模式)

    2、Pseudo-Distributed mode(伪分布式模式)

    3、Cluster mode(群集模式)-单节点模式-高可用HA模式

    集群环境准备

    hadoop重新编译

    为什么要编译hadoop

    Hadoop编译实现

    Hadoop安装

    Hadoop安装包目录结构

    Hadoop配置文件修改

    数据目录创建和文件分发

    配置Hadoop的环境变量

    启动集群

    集群的页面访问 

    Hadoop初体验


    Hadoop集群搭建

    集群简介

    HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。

    HDFS集群负责海量数据的存储,集群中的角色主要有:

    NameNode、DataNode、SecondaryNameNode

    YARN集群负责海量数据运算时的资源调度,集群中的角色主要有:

    ResourceManager、NodeManager

    那mapreduce是什么呢?它其实是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在HDFS集群上,并且受到YARN集群的资源调度管理。

    集群部署方式

    Hadoop部署方式分三种:

    1、Standalone mode(独立模式)

    独立模式又称为单机模式,仅1个机器运行1个java进程,主要用于调试。

    2、Pseudo-Distributed mode(伪分布式模式)

    伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。

    3、Cluster mode(群集模式)-单节点模式-高可用HA模式

    集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。

    本课程搭建的是集群模式,以三台主机为例,以下是集群规划:

          主机

    组件   

    node1

    (192.168.88.161)

    node2

    (192.168.88.162)

    node3

    (192.168.88.163)

    NameNode

    Secondary

    Namenode

    DataNode

    ResourceManager

    NodeManager

    集群环境准备

    集群模式主要用于生产环境部署,需要多台主机,并且这些主机之间可以相互访问,我们在之前搭建好基础环境的三台虚拟机上进行Hadoop的搭建

    hadoop重新编译

    为什么要编译hadoop

    由于appache给出的hadoop的安装包没有提供带C程序访问的接口,所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题,需要对Hadoop源码包进行重新编译,请注意,资料中已经提供好了编译过的Hadoop安装包,所以这一部分的操作,大家可以不用做,了解即可。

    Hadoop编译实现

    Hadoop的编译步骤可以参考:Hadoop编译

    Hadoop安装

    Hadoop安装包目录结构

    解压hadoop-2.7.5.tar.gz,目录结构如下:

    bin:Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。

    etc:Hadoop配置文件所在的目录,包括core-site,xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。

    include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。

    lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。

    libexec:各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。

    sbin:Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。

    share:Hadoop各个模块编译后的jar包所在的目录,官方自带示例。

    Hadoop配置文件修改

    Hadoop安装主要就是配置文件的修改,一般在主节点进行修改,完毕后scp下发给其他各个从节点机器。

    注意,以下所有操作都在node1主机进行。

    1. hadoop-env.sh

    • 介绍

    文件中设置的是Hadoop运行时需要的环境变量。JAVA_HOME是必须设置的,即使我们当前的系统中设置了JAVA_HOME,它也是不认识的,因为Hadoop即使是在本机上执行,它也是把当前的执行环境当成远程服务器。

    • 配置
    cd  /export/server/hadoop-2.7.5/etc/hadoop
    
    vim  hadoop-env.sh

    添加以下内容:

    export JAVA_HOME=/export/server/jdk1.8.0_241

    2. core-site.xml

    • 介绍

    hadoop的核心配置文件,有默认的配置项core-default.xml。

    core-default.xml与core-site.xml的功能是一样的,如果在core-site.xml里没有配置的属性,则会自动会获取core-default.xml里的相同属性的值。

    • 配置

    在该文件中的标签中添加以下配置,

      在这里添加配置

    cd  /export/server/hadoop-2.7.5/etc/hadoop
    vim  core-site.xml

    配置内容如下:

    <!-- 用于设置Hadoop的文件系统,由URI指定 -->
    
     <property>
    
        <name>fs.defaultFS</name>
    
        <value>hdfs://node1:8020</value>
    
     </property>
    
    <!-- 配置Hadoop存储数据目录,默认/tmp/hadoop-${user.name} -->
    
     <property>
    
       <name>hadoop.tmp.dir</name>
    
       <value>/export/server/hadoop-2.7.5/hadoopDatas/tempDatas</value>
    
    </property>
    
    
    
    <!--  缓冲区大小,实际工作中根据服务器性能动态调整 -->
    
     <property>
    
       <name>io.file.buffer.size</name>
    
       <value>4096</value>
    
     </property>
    
    
    
    <!--  开启hdfs的垃圾桶机制,删除掉的数据可以从垃圾桶中回收,单位分钟 -->
    
     <property>
    
       <name>fs.trash.interval</name>
    
       <value>10080</value>
    
     </property>

    3.hdfs-site.xml

    • 介绍

    HDFS的核心配置文件,主要配置HDFS相关参数,有默认的配置项hdfs-default.xml。

    hdfs-default.xml与hdfs-site.xml的功能是一样的,如果在hdfs-site.xml里没有配置的属性,则会自动会获取hdfs-default.xml里的相同属性的值。

    • 配置

    在该文件中的标签中添加以下配置,

      在这里添加配置

    cd  /export/server/hadoop-2.7.5/etc/hadoop
    vim  hdfs-site.xml

    配置一下内容

    <!-- 指定SecondaryNameNode的主机和端口 -->
    
    <property>
    
    <name>dfs.namenode.secondary.http-address</name>
    
    <value>node2:50090</value>
    
    </property>
    
    <!-- 指定namenode的页面访问地址和端口 -->
    
    <property>
    
    <name>dfs.namenode.http-address</name>
    
    <value>node1:50070</value>
    
    </property>
    
    <!-- 指定namenode元数据的存放位置 -->
    
    <property>
    
    <name>dfs.namenode.name.dir</name>
    
    <value>file:///export/server/hadoop-2.7.5/hadoopDatas/namenodeDatas</value>
    
    </property>
    
    <!--  定义datanode数据存储的节点位置 -->
    
    <property>
    
    <name>dfs.datanode.data.dir</name>
    
    <value>file:///export/server/hadoop-2.7.5/hadoopDatas/datanodeDatas</value>
    
    </property>
    
    <!-- 定义namenode的edits文件存放路径 -->
    
    <property>
    
    <name>dfs.namenode.edits.dir</name>
    
    <value>file:///export/server/hadoop-2.7.5/hadoopDatas/nn/edits</value>
    
    </property>
    
    
    
    <!-- 配置检查点目录 -->
    
    <property>
    
    <name>dfs.namenode.checkpoint.dir</name>
    
    <value>file:///export/server/hadoop-2.7.5/hadoopDatas/snn/name</value>
    
    </property>
    
    
    
    <property>
    
    <name>dfs.namenode.checkpoint.edits.dir</name>
    
    <value>file:///export/server/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value>
    
    </property>
    
    <!-- 文件切片的副本个数-->
    
    <property>
    
    <name>dfs.replication</name>
    
    <value>3</value>
    
    </property>
    
    
    
    <!-- 设置HDFS的文件权限-->
    
    <property>
    
    <name>dfs.permissions</name>
    
    <value>false</value>
    
    </property>
    
    <!-- 设置一个文件切片的大小:128M-->
    
    <property>
    
    <name>dfs.blocksize</name>
    
    <value>134217728</value>
    
    </property>
    
    <!-- 指定DataNode的节点配置文件 -->
    
    <property>
    
     <name> dfs.hosts </name>
    
     <value>/export/server/hadoop-2.7.5/etc/hadoop/slaves </value>
    
    </property>

    ​​​​​​​​​​​​​​4. mapred-site.xml

    • 介绍

    MapReduce的核心配置文件,Hadoop默认只有个模板文件mapred-site.xml.template,需要使用该文件复制出来一份mapred-site.xml文件

    • 配置
    cd  /export/server/hadoop-2.7.5/etc/hadoop
    cp mapred-site.xml.template mapred-site.xml

    在mapred-site.xml文件中的标签中添加以下配置,

      在这里添加配置

    vim  mapred-site.xml

     配置一下内容:

    <!-- 指定分布式计算使用的框架是yarn -->
    
    <property>
    
    <name>mapreduce.framework.name</name>
    
    <value>yarn</value>
    
    </property>
    
    
    
    <!-- 开启MapReduce小任务模式 -->
    
    <property>
    
    <name>mapreduce.job.ubertask.enable</name>
    
    <value>true</value>
    
    </property>
    
    
    
    <!-- 设置历史任务的主机和端口 -->
    
    <property>
    
    <name>mapreduce.jobhistory.address</name>
    
    <value>node1:10020</value>
    
    </property>
    
    
    
    <!-- 设置网页访问历史任务的主机和端口 -->
    
    <property>
    
    <name>mapreduce.jobhistory.webapp.address</name>
    
    <value>node1:19888</value>
    
    </property>

    ​​​​​​​​​​​​​​5. mapred-env.sh

    在该文件中需要指定JAVA_HOME,将原文件的JAVA_HOME配置前边的注释去掉,然后按照以下方式修改:

    cd  /export/server/hadoop-2.7.5/etc/hadoop
    vim  mapred-env.sh
    export JAVA_HOME=/export/server/jdk1.8.0_241

    ​​​​​​​​​​​​​​6. yarn-site.xml

    YARN的核心配置文件,在该文件中的标签中添加以下配置,

      在这里添加配置

    cd  /export/server/hadoop-2.7.5/etc/hadoop
    vim  yarn-site.xml

    添加以下配置:

    <!-- 配置yarn主节点的位置 -->
    
    <property>
    
    <name>yarn.resourcemanager.hostname</name>
    
    <value>node1</value>
    
    </property>
    
    
    
    <property>
    
    <name>yarn.nodemanager.aux-services</name>
    
    <value>mapreduce_shuffle</value>
    
    </property>
    
    
    
    <!-- 开启日志聚合功能 -->
    
    <property>
    
    <name>yarn.log-aggregation-enable</name>
    
    <value>true</value>
    
    </property>
    
    <!-- 设置聚合日志在hdfs上的保存时间 -->
    
    <property>
    
    <name>yarn.log-aggregation.retain-seconds</name>
    
    <value>604800</value>
    
    </property>
    
    <!-- 设置yarn集群的内存分配方案 -->
    
    <property>    
    
    <name>yarn.nodemanager.resource.memory-mb</name>    
    
    <value>2048</value>
    
    </property>
    
    <property>  
    
              <name>yarn.scheduler.minimum-allocation-mb</name>
    
              <value>2048</value>
    
    </property>
    
    <property>
    
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    
    <value>2.1</value>
    
    </property>

    ​​​​​​​7. slaves

    • 介绍

    slaves文件里面记录的是集群主机名。一般有以下两种作用:

    一是:配合一键启动脚本如start-dfs.sh、stop-yarn.sh用来进行集群启动。这时候slaves文件里面的主机标记的就是从节点角色所在的机器。

    二是:可以配合hdfs-site.xml里面dfs.hosts属性形成一种白名单机制。

    dfs.hosts指定一个文件,其中包含允许连接到NameNode的主机列表。必须指定文件的完整路径名,那么所有在slaves中的主机才可以加入的集群中。如果值为空,则允许所有主机。

    • 配置
    cd  /export/server/hadoop-2.7.5/etc/hadoop
    vim  slaves

    删除slaves中的localhost,然后添加以下内容:

    node1
    node2
    node3

    ​​​​​​​数据目录创建和文件分发

    注意,以下所有操作都在node1主机进行。

    1. 目录创建

    创建Hadoop所需目录

    mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/tempDatas
    
    mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/namenodeDatas
    
    mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/datanodeDatas
    
    mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/nn/edits
    
    mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/snn/name
    
    mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

    2. 文件分发

    将配置好的Hadoop目录分发到node2和node3主机。

    scp -r /export/server/hadoop-2.7.5/ node2:/export/server/
    
    scp -r /export/server/hadoop-2.7.5/ node3:/export/server/

    ​​​​​​​配置Hadoop的环境变量

    注意,三台机器都需要执行以下命令

    vim  /etc/profile

    添加以下内容:

    export HADOOP_HOME=/export/server/hadoop-2.7.5
    export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

    配置完成之后生效

    source /etc/profile

    ​​​​​​​启动集群

    1. 启动方式

    要启动Hadoop集群,需要启动HDFS和YARN两个集群。

    注意:首次启动HDFS时,必须对其进行格式化操作。本质上是一些清理和准备工作,因为此时的HDFS在物理上还是不存在的。

    在node1上执行格式化指令

    hadoop namenode -format

     2. 单节点逐个启动

    在node1主机上使用以下命令启动HDFS NameNode:

    hadoop-daemon.sh start namenode

    在node1、node2、node3三台主机上,分别使用以下命令启动HDFS DataNode:

    hadoop-daemon.sh start datanode

    在node1主机上使用以下命令启动YARN ResourceManager:

    yarn-daemon.sh  start resourcemanager

    在node1、node2、node3三台主机上使用以下命令启动YARN nodemanager:

    yarn-daemon.sh start nodemanager

    以上脚本位于/export/server/hadoop-2.7.5/sbin目录下。如果想要停止某个节点上某个角色,只需要把命令中的start改为stop即可。

    3. 脚本一键启动

    启动HDFS

    start-dfs.sh

    启动Yarn

    start-yarn.sh

    启动历史任务服务进程

    mr-jobhistory-daemon.sh start historyserver

    启动之后,使用jps命令查看相关服务是否启动,jps是显示Java相关的进程命令。

    node1:

    node2:

    node3

    停止集群:stop-dfs.sh、stop-yarn.sh、mr-jobhistory-daemon.sh stophistoryserver

    注意:如果在启动之后,有些服务没有启动成功,则需要查看启动日志,Hadoop的启动日志在每台主机的/export/server/hadoop-2.7.5/logs/目录,需要根据哪台主机的哪个服务启动情况去对应的主机上查看相应的日志,以下是node1主机的日志目录.

    集群的页面访问 

    1. IP访问

    一旦Hadoop集群启动并运行,可以通过web-ui进行集群查看,如下所述:

    查看NameNode页面地址:

    http://192.168.88.161:50070/ 

    查看Yarn集群页面地址:

    http://192.168.88.161:8088/cluster 

    查看MapReduce历史任务页面地址:

    http://192.168.88.161:19888/jobhistory

    ​​​​​​​2. 主机名访问

    请注意,以上的访问地址只能使用IP地址,如果想要使用主机名,则对Windows进行配置。

    配置方式:

    1、打开Windows的C:\Windows\System32\drivers\etc目录下hosts文件

    2、在hosts文件中添加以下域名映射

    192.168.88.161  node1
    192.168.88.162  node2
    192.168.88.163  node3

    配置完之后,可以将以上地址中的IP替换为主机名即可访问,如果还不能访问,则需要重启Windows电脑,比如访问NameNode,可以使用http://node1:50070/ 。

    Hadoop初体验

    1. HDFS使用

    • 从Linux本地上传一个文本文件到hdfs的/目录下
    #在/export/data/目录中创建a.txt文件,并写入数据
    
    cd /export/data/
    
    touch a.txt
    
    echo "hello" > a.txt
    
    
    #将a.txt上传到HDFS的根目录
    
    hadoop fs -put a.txt  /
    • 通过页面查看

    通过NameNode页面.进入HDFS:http://node1:50070/ 

    查看文件是否创建成功

    ​​​​​​​2. 运行mapreduce程序

    在Hadoop安装包的share/hadoop/mapreduce下有官方自带的mapreduce程序。我们可以使用如下的命令进行运行测试。

    示例程序jar:

    hadoop-mapreduce-examples-2.7.5.jar

    计算圆周率

    hadoop jar /export/server/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar pi 2 10

    关于圆周率的估算,感兴趣的可以查询资料蒙特卡洛方法来计算Pi值,计算命令中2表示计算的线程数,50表示投点数,该值越大,则计算的pi值越准确。

      


    • 📢博客主页:https://lansonli.blog.csdn.net
    • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
    • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
    • 📢大数据系列文章会每天更新,停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
    展开全文
  • 我自己搭建windows下的hadoop集群,并且图文记录下了安装过程,亲测,没有问题,一步步按着做可以用windows下虚拟机搭建一个hadoop集群
  • 该文件是:Hadoop集群搭建详细简明教程,简单明了,易于上手。
  • CentOS6.5miniHadoop集群搭建流程(完整版),内含代码及截图
  • Hadoop集群搭建笔记

    2018-04-20 08:45:39
    非常详细的linux上的hadoop集群搭建文档,可供参考,希望大家能够从中获益
  • hadoop集群搭建文档

    2018-01-15 14:43:32
    hadoop集群搭建文档,欢迎您下载使用欢迎您下载使用欢迎您下载使用欢迎您下载使用欢迎您下载使用
  • 最新hadoop集群搭建(2020)

    千次阅读 多人点赞 2020-10-11 21:41:48
    hadoop集群搭建一、机器准备二、安装JDK三、配置ssh免密码登录四、建立主机名和ip的映射五、 安装配置hadoop1. 将hadoop安装包解压到/opt/module下2. 配置/opt/module/hadoop-2.7.2/etc/hadoop下的core-site.xml3. ...

    一、机器准备

       这里我们准备采用的集群模式如下:
    
    		DN:datanode
    		NN:namenode
    		NM:nodemanager
    		RM:resourcemanager
    		2NN:secondarynamenode
    	
    		hadoop1  hadoop2  hadoop3
    		DN       DN       DN
    		NM       NM       NM
    		NN       RM       2NN
    
     准备三台机器(您可以安装一台机器后克隆出其他两台机器,修改ip,主机名),,这里我用virtualBox搭建了三台虚拟机,
     每台虚拟机分配了4G内存,50G的硬盘空  间,这里我分配的空间大一点主要是为了后面计算时有充足的空间,不然还
     得增加硬盘及内存。 所以你得机器内存至少16G以上。
     
     注意:每台机器防火墙要关闭;三台机器可以互相访问;
    

    二、安装JDK

    下载安装java1.8:
    
             tar -zxvf  jdk1.8.0_161.tar.gz(使用自己的压缩文件名)
             配置环境jdk环境:/etc/profile
    

    在这里插入图片描述

     编辑完成后:source /etc/profile
    

    在这里插入图片描述

    三、配置ssh免密码登录

    在hadoop1机器root用户下输入ssh-keygen -t rsa 一路回车(如果用的是其他用户组,需要在该用户组下操作)
    在这里插入图片描述
    在这里插入图片描述
    秘钥生成后在~/.ssh/目录下,有两个文件id_rsa(私钥)和id_rsa.pub(公钥),将公钥复制到authorized_keys

    同理在hadoop2和hadoop3节点上进行相同的操作,然后将公钥复制到master节点上的authoized_keys

    再将hadoop1节点上的authoized_keys远程传输到hadoop2和hadoop3的~/.ssh/目录下

          scp   ~/.ssh/authorized_keys   root@hadoop2: ~/.ssh/
    

    在这里插入图片描述

    四、建立主机名和ip的映射

    在这里插入图片描述

    五、 安装配置hadoop

    1. 将hadoop安装包解压到/opt/module下并配置环境变量

    在这里插入图片描述
    在etc/profile增加hadoop路径:
    在这里插入图片描述

    2. 配置/opt/module/hadoop-2.7.2/etc/hadoop下的core-site.xml

    hadoop1:

    		[atguigu@hadoop1 hadoop]$ cat core-site.xml 
    		<?xml version="1.0" encoding="UTF-8"?>
    		<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    		<!--
    		  Licensed under the Apache License, Version 2.0 (the "License");
    		  you may not use this file except in compliance with the License.
    		  You may obtain a copy of the License at
    		
    		    http://www.apache.org/licenses/LICENSE-2.0
    		
    		  Unless required by applicable law or agreed to in writing, software
    		  distributed under the License is distributed on an "AS IS" BASIS,
    		  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    		  See the License for the specific language governing permissions and
    		  limitations under the License. See accompanying LICENSE file.
    		-->
    		
    		<!-- Put site-specific property overrides in this file. -->
    		
    		<configuration>
    		  <property>
    		    <name>fs.defaultFS</name>
    		    <value>hdfs://hadoop1:9000</value>
    		  </property>
    		 <property>
    		    <name>hadoop.tmp.dir</name>
    		    <value>/opt/module/hadoop-2.7.2/data/tmp</value>
    		 </property>
    		</configuration>
    

    hadoop2:

    		[atguigu@hadoop2 hadoop]$ cat core-site.xml
    		<?xml version="1.0" encoding="UTF-8"?>
    		<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    		<!--
    		  Licensed under the Apache License, Version 2.0 (the "License");
    		  you may not use this file except in compliance with the License.
    		  You may obtain a copy of the License at
    		
    		    http://www.apache.org/licenses/LICENSE-2.0
    		
    		  Unless required by applicable law or agreed to in writing, software
    		  distributed under the License is distributed on an "AS IS" BASIS,
    		  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    		  See the License for the specific language governing permissions and
    		  limitations under the License. See accompanying LICENSE file.
    		-->
    		
    		<!-- Put site-specific property overrides in this file. -->
    		
    		<configuration>
    		     <property>
    		    <name>fs.defaultFS</name>
    		    <value>hdfs://hadoop1:9000</value>
    		  </property>
    		 <property>
    		    <name>hadoop.tmp.dir</name>
    		    <value>/opt/module/hadoop-2.7.2/data/tmp</value>
    		 </property>
    		</configuration>
    

    hadoop3:

    	 [atguigu@hadoop3 hadoop]$ cat core-site.xml 
    	<?xml version="1.0" encoding="UTF-8"?>
    	<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    	<!--
    	  Licensed under the Apache License, Version 2.0 (the "License");
    	  you may not use this file except in compliance with the License.
    	  You may obtain a copy of the License at
    	
    	    http://www.apache.org/licenses/LICENSE-2.0
    	
    	  Unless required by applicable law or agreed to in writing, software
    	  distributed under the License is distributed on an "AS IS" BASIS,
    	  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    	  See the License for the specific language governing permissions and
    	  limitations under the License. See accompanying LICENSE file.
    	-->
    	
    	<!-- Put site-specific property overrides in this file. -->
    	
    	<configuration>
    	  <property>
    	    <name>fs.defaultFS</name>
    	    <value>hdfs://hadoop1:9000</value>
    	  </property>
    	 <property>
    	    <name>hadoop.tmp.dir</name>
    	    <value>/opt/module/hadoop-2.7.2/data/tmp</value>
    	 </property>
    	</configuration>
    

    3. 配置/opt/module/hadoop-2.7.2/etc/hadoop下的hdfs-site.xml

    hadoop1:

    		[atguigu@hadoop1 hadoop]$ cat hdfs-site.xml 
    		<?xml version="1.0" encoding="UTF-8"?>
    		<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    		<!--
    		  Licensed under the Apache License, Version 2.0 (the "License");
    		  you may not use this file except in compliance with the License.
    		  You may obtain a copy of the License at
    		
    		    http://www.apache.org/licenses/LICENSE-2.0
    		
    		  Unless required by applicable law or agreed to in writing, software
    		  distributed under the License is distributed on an "AS IS" BASIS,
    		  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    		  See the License for the specific language governing permissions and
    		  limitations under the License. See accompanying LICENSE file.
    		-->
    		
    		<!-- Put site-specific property overrides in this file. -->
    		
    		<configuration>
    		   <property>
    		    <name>dfs.namenode.secondary.http-address</name>
    		    <value>hadoop3:50090</value>
    		  </property>
    		</configuration>
    

    hadoop2:

    		  [atguigu@hadoop2 hadoop]$ cat hdfs-site.xml 
    		<?xml version="1.0" encoding="UTF-8"?>
    		<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    		<!--
    		  Licensed under the Apache License, Version 2.0 (the "License");
    		  you may not use this file except in compliance with the License.
    		  You may obtain a copy of the License at
    		
    		    http://www.apache.org/licenses/LICENSE-2.0
    		
    		  Unless required by applicable law or agreed to in writing, software
    		  distributed under the License is distributed on an "AS IS" BASIS,
    		  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    		  See the License for the specific language governing permissions and
    		  limitations under the License. See accompanying LICENSE file.
    		-->
    		
    		<!-- Put site-specific property overrides in this file. -->
    		
    		<configuration>
    		   <property>
    		    <name>dfs.namenode.secondary.http-address</name>
    		    <value>hadoop3:50090</value>
    		  </property>
    		</configuration>  
    

    hadoop3:

        [atguigu@hadoop3 hadoop]$ cat hdfs-site.xml 
    	<?xml version="1.0" encoding="UTF-8"?>
    	<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    	<!--
    	  Licensed under the Apache License, Version 2.0 (the "License");
    	  you may not use this file except in compliance with the License.
    	  You may obtain a copy of the License at
    	
    	    http://www.apache.org/licenses/LICENSE-2.0
    	
    	  Unless required by applicable law or agreed to in writing, software
    	  distributed under the License is distributed on an "AS IS" BASIS,
    	  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    	  See the License for the specific language governing permissions and
    	  limitations under the License. See accompanying LICENSE file.
    	-->
    
    	<!-- Put site-specific property overrides in this file. -->
    	
    	<configuration>
    	   <property>
    	    <name>dfs.namenode.secondary.http-address</name>
    	    <value>hadoop3:50090</value>
    	  </property>
    	</configuration>
    

    4. 配置/opt/module/hadoop-2.7.2/etc/hadoop下的yarn-site.xml

    hadoop1:

    		[atguigu@hadoop1 hadoop]$ cat yarn-site.xml 
    		<?xml version="1.0"?>
    		<!--
    		  Licensed under the Apache License, Version 2.0 (the "License");
    		  you may not use this file except in compliance with the License.
    		  You may obtain a copy of the License at
    		
    		    http://www.apache.org/licenses/LICENSE-2.0
    		
    		  Unless required by applicable law or agreed to in writing, software
    		  distributed under the License is distributed on an "AS IS" BASIS,
    		  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    		  See the License for the specific language governing permissions and
    		  limitations under the License. See accompanying LICENSE file.
    		-->
    		<configuration>
    		
    		 <!-- Site specific YARN configuration properties -->
    		 <property>
    		    <name>yarn.resourcemanager.hostname</name>
    		    <value>hadoop2</value>
    		 </property>
    		 <!-- reducer获取数据的方式 -->
    		  <property>
    		     <name>yarn.nodemanager.aux-services</name>
    		     <value>mapreduce_shuffle</value>
    		  </property>
    		</configuration>
    

    hadoop2:

    		[atguigu@hadoop2 hadoop]$ cat yarn-site.xml 
    		<?xml version="1.0"?>
    		<!--
    		  Licensed under the Apache License, Version 2.0 (the "License");
    		  you may not use this file except in compliance with the License.
    		  You may obtain a copy of the License at
    		
    		    http://www.apache.org/licenses/LICENSE-2.0
    		
    		  Unless required by applicable law or agreed to in writing, software
    		  distributed under the License is distributed on an "AS IS" BASIS,
    		  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    		  See the License for the specific language governing permissions and
    		  limitations under the License. See accompanying LICENSE file.
    		-->
    		<configuration>
    		     <!-- Site specific YARN configuration properties -->
    		 <property>
    		    <name>yarn.resourcemanager.hostname</name>
    		    <value>hadoop2</value>
    		 </property>
    		 <!-- reducer获取数据的方式 -->
    		  <property>
    		     <name>yarn.nodemanager.aux-services</name>
    		     <value>mapreduce_shuffle</value>
    		  </property>
    		</configuration>
    

    hadoop3:

    	    [atguigu@hadoop3 hadoop]$ cat yarn-site.xml 
    	<?xml version="1.0"?>
    	<!--
    	  Licensed under the Apache License, Version 2.0 (the "License");
    	  you may not use this file except in compliance with the License.
    	  You may obtain a copy of the License at
    	
    	    http://www.apache.org/licenses/LICENSE-2.0
    	
    	  Unless required by applicable law or agreed to in writing, software
    	  distributed under the License is distributed on an "AS IS" BASIS,
    	  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    	  See the License for the specific language governing permissions and
    	  limitations under the License. See accompanying LICENSE file.
    	-->
    	<configuration>
    	
    	 <!-- Site specific YARN configuration properties -->
    	 <property>
    	    <name>yarn.resourcemanager.hostname</name>
    	    <value>hadoop2</value>
    	 </property>
    	 <!-- reducer获取数据的方式 -->
    	  <property>
    	     <name>yarn.nodemanager.aux-services</name>
    	     <value>mapreduce_shuffle</value>
    	  </property>
    	</configuration>
    

    5. 配置/opt/module/hadoop-2.7.2/etc/hadoop下的mapreduce-site.xml

    hadoop1\hadoop2\hadoop3相同:

    		[atguigu@hadoop1 hadoop]$ cat yarn-site.xml 
    	<?xml version="1.0"?>
    	<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    	<!--
    	  Licensed under the Apache License, Version 2.0 (the "License");
    	  you may not use this file except in compliance with the License.
    	  You may obtain a copy of the License at
    	
    	    http://www.apache.org/licenses/LICENSE-2.0
    	
    	  Unless required by applicable law or agreed to in writing, software
    	  distributed under the License is distributed on an "AS IS" BASIS,
    	  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    	  See the License for the specific language governing permissions and
    	  limitations under the License. See accompanying LICENSE file.
    	-->
    	
    	<!-- Put site-specific property overrides in this file. -->
    	
    	<configuration>
    	   <property>
    	    <name>mapreduce.framework.name</name>
    	    <value>yarn</value>
    	  </property>
    	</configuration>
    

    6.格式化Namenode

    因为这里我们是配置的hadoop1为namenode,因此只需格式化hadoop1:

    hadoop namenode -format
    

    在这里插入图片描述
    启动hadoop1上的namenode:

     hadoop-daemon.sh start namenode
    

    启动hadoop1\hadoop2\hadoop3的datanode:

     hadoop-daemon.sh start datanode
    

    启动hadoop3上的secondarynamenode

    hadoop-daemon.sh start secondarynamenode
    

    查看启动的进程:
    在这里插入图片描述

    通过50070端口访问地址:
    在这里插入图片描述

    启动hadoop2上的resourcemanager:

    yarn-daemon.sh start resourcemanager
    

    在这里插入图片描述
    查看所有进程是否已启:
    在这里插入图片描述

    测试集群

       hadoop fs -mkdir /wpinput 
      查看文件夹是否生成到hdfs下:
    

    在这里插入图片描述
    上传文件到wpinput下:

         hadoop fs -put test2  /wpinput3
    

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    利用/opt/module/hadoop-2.7.2/share/hadoop/mapreduce下的hadoop-mapreduce-examples-2.7.2.jar 来统计wpinput2下所有文件的单词数:

     hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount  /wpinput2/   /wpoutput3 
    

    在这里插入图片描述
    执行成功会在wpoutput3生成执行成功后的文件信息:
    在这里插入图片描述

    群起集群

     上面我们是一台台机器上分别启动namenode、datanone、resourcemanager、nodemanager、secondarynamenone进程,
    这里介绍群起命令:
    首先修改/opt/module/hadoop-2.7.2/etc/hadoop下的salves文件,如下图写入三台机器的主机名,每个主机名占一行,主机名后不能有空格,且不能有空行:
    

    在这里插入图片描述
    编辑完成后保存,下面演示群起命令:

      stop-yarn.sh  停止机器中所有yarn进程:
    

    在这里插入图片描述

     stop-dfs.sh  停止机器中所有dfs进程:
    

    在这里插入图片描述

    start-all.sh 群起所有进程:
    

    在这里插入图片描述
    stop-all.sh 群停所有进程:
    在这里插入图片描述

    这里注意一下:start-all.sh命令其实是分布调用了start-dfs.sh和start-yarn.sh 
    start-dfs.sh可以在任意一台机器中执行,
    start-yarn.sh必须在RM所在机器使用,在其他机器不会启动RM进程
    所以最好都在RM所在机器执行群起群停命令!
    

    历史日志查看

    为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:

    1. 配置mapred-site.xml

      	        <property>
      			<name>mapreduce.jobhistory.address</name>
      			<value>hadoop1:10020</value>
      			</property>
      			<property>
      			    <name>mapreduce.jobhistory.webapp.address</name>
      			    <value>hadoop1:19888</value>
      			</property>
      			<!--第三方框架使用yarn计算的日志聚集功能 -->
      			<property>
      			        <name>yarn.log.server.url</name>
      			        <value>http://hadoop1:19888/jobhistory/logs</value>
      			</property>
      
    2. 启动历史服务器
      [atguigu@hadoop1 hadoop-2.7.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

    3. 查看历史服务器是否启动
      [atguigu@hadoop1 hadoop-2.7.2]$ jps

    4. 查看JobHistory
      http://hadoop1:19888/jobhistory

    配置日志的聚集:

    日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。
    日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。
    注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryManager。
    开启日志聚集功能具体步骤如下:
    

    1.配置yarn-site.xml

    	[atguigu@hadoop1 hadoop]$ vi yarn-site.xml
    	在该文件里面增加如下配置。
    	<!-- 日志聚集功能使能 -->
    	<property>
    	<name>yarn.log-aggregation-enable</name>
    	<value>true</value>
    	</property>
    	
    	<!-- 日志保留时间设置7天 -->
    	<property>
    	<name>yarn.log-aggregation.retain-seconds</name>
    	<value>604800</value>
    	</property>
    

    2.关闭NodeManager 、ResourceManager和HistoryManager
    [atguigu@hadoop1 hadoop-2.7.2]$ sbin/yarn-daemon.sh stop resourcemanager
    [atguigu@hadoop1 hadoop-2.7.2]$ sbin/yarn-daemon.sh stop nodemanager
    [atguigu@hadoop1 hadoop-2.7.2]$ sbin/mr-jobhistory-daemon.sh stop historyserver
    3.启动NodeManager 、ResourceManager和HistoryManager
    [atguigu@hadoop1 hadoop-2.7.2]$ sbin/yarn-daemon.sh start resourcemanager
    [atguigu@hadoop1 hadoop-2.7.2]$ sbin/yarn-daemon.sh start nodemanager
    [atguigu@hadoop1 hadoop-2.7.2]$ sbin/mr-jobhistory-daemon.sh start historyserver
    4.删除HDFS上已经存在的输出文件
    [atguigu@hadoop1 hadoop-2.7.2]$ bin/hdfs dfs -rm -R /user/atguigu/output
    5.执行WordCount程序
    [atguigu@hadoop1 hadoop-2.7.2]$ hadoop jar
    share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/input /user/atguigu/output
    6.查看日志,如图2-37,2-38,2-39所示
    http://hadoop1:19888/jobhistory

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 非常详细的hadoop集群搭建教程,包含SSH免密码登录,基本上按照教程上一步一步操作就能搭建成功,非常适合大数据初学者使用
  • 在VMware上部署hadoop集群,首先需要安装jdk。 掌握在完全分布的整合平台中快捷的进行JDK的安装 (1)完全分布模式中JDK的安装和验证; (2)在集群中所有主机上完成JDK的安装; 所有主机上JDK相关命令能够正常使用
  • Hadoop集群搭建与经验总结

    千次阅读 2018-11-03 17:14:12
    最近要研发一款数据传输服务的产品需要用到Hadoop集群,之前搭建过后来长时间不用就给忘记了,这次搭好来记录一下搭建方法与经验总结 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的...

    (002)最近要研发一款数据传输服务的产品需要用到Hadoop集群,之前搭建过后来长时间不用就给忘记了,这次搭好来记录一下搭建方法与经验总结

    Hadoop集群的搭建

    原料:

    • VM虚拟机
    • JDK1.8
    • hadoop2.7.3

    注:将jdk1.8.tar.gz和hadoop-2.7.3.tar.gz放在/opt/bigdata目录下(没有请自行创建)
    附件:
    链接:https://pan.baidu.com/s/1oII8j97sAEQDokE9kYJTzA
    提取码:eau1

    设计集群

    以一主两从为例搭建集群环境,在VM虚拟机中创建三个
    具体设计如下:
    192.168.225.100 -- master(主机),namenode, datanode, 
    jobtracker, tasktracker -- master(主机名)
    192.168.225.101 -- slave1(从机),datanode, tasktracker -- slave1(主机名)
    192.168.225.102 -- slave2(从机),datanode,tasktracker -- slave2(主机名)
    

    创建用户
    命令:
    # useradd hadoop
    # id hadoop
    # passwd hadoop
    注:我这里设置的密码是123456,需要打两遍
    使hadoop用户成为sudoers,以root用户修改文件/etc/sudoers,
    命令:
    # vim /etc/sudoers
    在这里插入图片描述
    修改文件夹权限
    我未来准备将hadoop安装到/opt/bigdata文件夹下,所以希望修改该文件夹权限,使hadoop用户能够自由操作该文件夹下的所有文件
    在这里插入图片描述

    安装JDK

    解压文件
    在这里插入图片描述
    移动文件夹
    在这里插入图片描述
    删除文件夹
    在这里插入图片描述
    注:移动文件夹和删除文件夹这两步可以不做,应该是我拿到这个jdk安装包中间多打了两层目录,如果其他包没有这个问题就不用做这两步,最后做到如下图目录效果就可以了
    在这里插入图片描述
    配置JDK环境变量(以root身份配置)
    在这里插入图片描述
    使profile文件生效
    在这里插入图片描述
    使用java命令查看jdk版本以验证是否安装成功
    在这里插入图片描述

    搭建Hadoop集群

    解压文件
    在这里插入图片描述
    查看目录列表
    在这里插入图片描述
    在hadoop目录下建立tmp目录,并将权限设定为777
    命令:
    $ mkdir tmp
    $ chmod 777 tmp
    $ mkdir dfs
    $ mkdir dfs/name
    $ mkdir dfs/data
    修改hadoop配置文件
    待修改清单:

    1. hadoop-env.sh

    2. mapred-env.sh

    3. yarn-env.sh

    4. core-site.xml

    5. hdfs-site.xml

    6. mapred-stie.xml

    7. yarn-site.xml

    8. masters

    9. slaves
      进入hadoop配置文件目录
      修改 hadoop-env.sh
      在这里插入图片描述
      在这里插入图片描述
      修改 mapred-env.sh
      在这里插入图片描述
      修改 yarn-env.sh
      在这里插入图片描述
      修改 core-site.xml
      在这里插入图片描述
      修改 hdfs-site.xml
      在这里插入图片描述
      修改 mapred-site.xml
      在这里插入图片描述
      修改 yarn-site.xml
      在这里插入图片描述
      修改 slaves (master、slave1和slave2均作为datanode)
      在这里插入图片描述
      配置系统变量
      命令:
      $ sudo su - root
      123456
      #vim /etc/profile
      在这里插入图片描述
      使配置生效(切换回hadoop用户)
      命令:
      $ source /etc/profile
      将hadoop、jdk、以及配置文件发送到slave1、slave2节点
      命令:(以slave1为例,slave2同理)
      $ scp -r /opt/bigdata/hadoop-2.7.3 hadoop@slave1:/opt/bigdata/
      $ scp -r /opt/bigdata/jdk1.8 hadoop@slave1:/opt/bigdata/
      注:slave1和slave2的/etc/profile文件按照master/etc/profile重新配置一遍(我是利用xftp从master下载并分别上传至slave1和slave2中的)
      修改hosts文件(使用root用户)
      为了使外部应用可以访问到服务(slave1和salve2同理)
      命令:
      #vim /etc/hosts
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

      授权(hadoop用户,目录定位到home目录即:~(这个符号代表的home 目录,不是表情……)
      master给自己和salve1,slave2发证书
      命令:(初次授权一路回车)
      $ ssh-keygen
      $ ssh-copy-id -i .ssh/id_rsa.pub hadoop@master
      $ ssh-copy-id -i .ssh/id_rsa.pub hadoop@slave1
      $ ssh-copy-id -i .ssh/id_rsa.pub hadoop@slave2

      slave1给master发证书(基础状态和master一致)
      $ ssh-keygen
      $ ssh-copy-id -i .ssh/id_rsa.pub hadoop@master

      slave2给master发证书(基础状态和master一致)
      $ ssh-keygen
      $ ssh-copy-id -i .ssh/id_rsa.pub hadoop@master
      测试
      使用ssh从master登录到slave1,然后再从slave1登录到master,接着从master登录到slave2,最后从salve2登录到master
      命令:(从master主机开始)
      $ ssh slave1
      $ ssh master
      $ ssh slave2
      $ ssh master

    启动集群

    启动集群有两种方法,一种是全部启动,一种是分步启动
    方法一(全部启动):
    定位到/opt/bigdata/hadoop-2.7.3/sbin/目录下,输入./start-all.sh命令
    在这里插入图片描述
    方法二(分布启动)
    启动HDFS
    命令:
    $ ./start-hdfs.sh
    启动YARN
    $ ./start-yarn.sh

    验证

    web界面
    在浏览器中输入 http://192.168.225.100:50070
    在这里插入图片描述
    点击Datanodes页面
    在这里插入图片描述
    在浏览器中输入http://192.168.225.100:8088
    在这里插入图片描述
    测试程序
    在集群上运行一个小程序来测试一下我们的集群有没有问题
    以wordcount程序为例
    使用hadoop命令创建一个测试目录
    在这里插入图片描述
    执行如下命令:
    在这里插入图片描述
    查看结果:
    $ hadoop fs -cat /test/part-r-00000
    在这里插入图片描述
    注:部分结果。

    1. 修改由于拷贝造成的datanodeid重复
    命令:(slave1和slave2同理)
    $ vim /opt/bigdata/hadoop-2.7.3/dfs/data/current/VERSION
    master:
    在这里插入图片描述
    slave1:
    在这里插入图片描述
    slave2:
    在这里插入图片描述
    注:我这里改动了datanodeUuid的后两位

    2. 执行作业报如下异常
    18/11/03 16:50:10 INFO input.FileInputFormat: Total input paths to process : 1
    18/11/03 16:50:10 WARN hdfs.DFSClient: Caught exception
    java.lang.InterruptedException
    at java.lang.Object.wait(Native Method)
    at java.lang.Thread.join(Thread.java:1249)
    at java.lang.Thread.join(Thread.java:1323)
    at org.apache.hadoop.hdfs.DFSOutputStream D a t a S t r e a m e r . c l o s e R e s p o n d e r ( D F S O u t p u t S t r e a m . j a v a : 609 ) a t o r g . a p a c h e . h a d o o p . h d f s . D F S O u t p u t S t r e a m DataStreamer.closeResponder(DFSOutputStream.java:609) at org.apache.hadoop.hdfs.DFSOutputStream DataStreamer.closeResponder(DFSOutputStream.java:609)atorg.apache.hadoop.hdfs.DFSOutputStreamDataStreamer.endBlock(DFSOutputStream.java:370)
    at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:546)

    这个异常据网上说是hadoop的一个bug可以忽略……,不影响集群的正常工作,如果谁知道是什么原因的话可以告诉我,谢谢啦!

    总结

    一个完美的集群是很需要花时间和心思研究它的每一个细节的……

    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 81,064
精华内容 32,425
关键字:

hadoop集群搭建