精华内容
下载资源
问答
  • 分别在master及slave生成rsa密钥: mkdir ~/.ssh cd ~/.ssh ssh-keygen -t -rsa 一路回车(选择默认设置),此时,ssh文件夹中生成了id_rsa.pub和id_rsa两个,然后使用scp命令将公钥(id_rsa.pub)分别拷到...

    一、实现master与slave之间无密码连接
    分别在master及slave上生成rsa密钥:

    mkdir ~/.ssh
    cd ~/.ssh
    ssh-keygen -t -rsa
    

    一路回车(选择默认设置),此时,ssh文件夹中生成了id_rsa.pub和id_rsa两个,然后使用scp命令将公钥(id_rsa.pub)分别拷到对方机器中

    scp id_rsa.pub h1@对方机器IP:~/.ssh/authorized_keys
    

    并设置权限:

    chmod 700 authoized_keys
    chomd 777 ~/.ssh
    

    使用cat命令实现无密码访问自身(localhost)cat id_rsa.pub >> authorized_keys
    二:关闭防火墙

    sudo ufw disable
    

    三:添加防火墙规则
    因阿里云服务器原只支持22、80和443端口,所以需要到控制台中添加防火墙规则,使其支持9000端口等(选择全部TCP+UDP)。
    四:安装JDK
    到官网下载JDK tar包,本次实验下载的JDK1.8.0版本,在h1用户下新建/usr/java文件夹,并将下载的压缩包解压到java文件夹中:tar -zvxf jdk-8u191-linux-x64.tar.gz然后打开etc/profile 进行环境变量配置:

    export JAVA_HOME=/usr/java/jdk1.8.0_191
    export JRE_HOME=/usr/java/jdk1.8.0_191/jre
    export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
    export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
    

    保存退出,使用source 命令或者重启sudo shutdown -r now使配置生效。可以使用which java测试java是否配置成功。
    五:修改hostname及hosts
    修改/etc/hostname,master机器上改为master,slave1机器上改为slave1。
    修改/etc/hosts,/etc/hosts中原来的内容全部删除,然后加入namenode和datanode的IP以及名字;master中的hosts中的masterIP为master本机内网IP,其他slave节点IP为外网IP;相同的,slave中的hosts中的本机IP必为本机内网IP,其他节点为外网IP。
    六:安装Hadoop
    到官网下载Hadoop压缩包,本次下载的版本为2.9.1,在h1用户下新建文件夹/hadoop,并将下载好的压缩包解压缩到hadoop文件夹中tar -zvxf hadoop-2.9.1.tar.gz。
    在hadoop目录下新建hdfs文件夹,并在hdfs文件夹中新建name、data、tmp三个文件夹。
    进入hadoop目录下的hadoop/etc/hadoop文件夹中对hadoop配置文件进行配置。
    1.使用vim打开core-site.xml文件进行如下配置:

    <configuration>
    <property>
    <name>hadoop.tmp.dir</name>
    <value>file:/home/h1/hadoop/hadoop-2.9.1/hdfs/tmp</value>
    <description>A base for other temporary directories.</description>
    </property>
    <property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
    </property>
    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
    </property>
    </configuration>
    

    2.使用vim打开hadoop-env.sh文件,将JAVA_HOME配置为本机JAVA_HOME路径。
    3.使用vim打开yarn-env.sh文件,将JAVA_HOME配置为本机JAVA_HOME路径。
    4.使用vim打开hdfs-site.xml文件,进行如下配置:

    <configuration>
    <property>
    <name>dfs.replication</name>
    <value>1</value>
    </property>
    <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/h1/hadoop/hadoop-2.9.1/hdfs/name</value>
    <final>true</final>
    </property>
    <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/h1/hadoop/hadoop-2.9.1/hdfs/data</value>
    <final>true</final>
    </property>
    <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>master:9001</value>
    </property>
    <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
    </property>
    <property>
    <name>dfs.permissions</name>
    <value>false</value>
    </property>
    </configuration>
    

    5.cp mapred-site.xml.template mapred-site.xml 复制其文件并命名为mapre-site.xml,使用vim打开进行配置:

    <configuration>
    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>
    </configuration>
    

    6.使用vim打开yarn-site.xml文件进行配置:

    <configuration>
    <property>
    <name>yarn.resourcemanager.sddress</name>
    <value>master:18040</value>
    </property>
    <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>master:18030</value>
    </property>
    <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>master:18088</value>
    </property>
    <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>master:18025</value>
    </property>
    <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>master:18141</value>
    </property>
    <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    </property>
    <property>
    <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
      </property>
      <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
      </property>
      <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
      </property>
    </configuration>
    

    7.配置slaves文件,将其中的localhost改为slave1。
    8.打开/etc/profile进行hadoop环境变量配置:

    
    export HADOOP_HOME=/home/h1/hadoop/hadoop-2.9.1
    export PATH="$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH"
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    

    9.使用scp hadoop-2.9.1 h1@slaveIP:/home/h1/hadoop/命令将master上的hadoop配置文件拷到slave1上,并修改slave1上的/etc/profile文件,然后使用sudo shutdown -r now命令使两机重启。
    10.在master机器上执行命令:hdfs namenode -format进行初始化
    11.在master机器上执行start-all.sh启动hadoop,使用jps命令可以查看到相应进程。
    12.在浏览器中输入http://masterIP:50070可以查看web UI。
    在这里插入图片描述
    七、Wordcount测试
    1.在h1用户目录下新建hadoop_data文件夹。
    2.在hadoop_data文件夹内新建file1.txt及file2.txt文件,并向其中写入要进行实验的文本:

    Verse 1:
    You should believe in me, and everything i choose to do
    You should believe that i’ll alaways come back to you
    Life is discovering the love that we create
    Life is a mystery we need to embrace
    In every way
    (We need to let go)
    You’ll see all our dreams will follow
    In every way
    (We need to let go)
    Chorus:
    People rise together when they believe in tomorrow
    Change today to forever, as life keeps moving
    People rise together when they believe in tomottow
    Change today to forever, as life keeps moving
    Verse 2:
    Open your mind and see, we have everything we need
    Dream a reality, fulfill its destiny
    In every way
    (We need to let go)
    You’ll see all our dream will follow
    In every way
    ~
    3.建立input文件夹3.hdfs dfs -mkdir /input将file1.txt及file2.txt文件上传到input文件夹中:hdfs dfs -put /home/h1/hadoop_data/*.txt /input/
    4..hadoop jar /home/h1/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.1.jar wordcount /input /output执行测试程序,并将结果输入到/output文件夹中
    5.hadoop fs -cat /output/part-r-00000查看结果。
    实验结果输出:
    (We 6
    1: 2
    2: 2
    Change 4
    Chorus: 2
    Dream 2
    In 8
    Life 4
    Open 2
    People 4
    Verse 4
    You 4
    You’ll 4
    a 4
    alaways 2
    all 4
    and 4
    as 4
    back 2
    believe 8
    choose 2
    come 2
    create 2
    destiny 2
    discovering 2
    do 2
    dream 2
    dreams 2
    embrace 2
    every 8
    everything 4
    follow 4
    forever, 4
    fulfill 2
    go) 6
    have 2
    i 2
    i’ll 2
    in 6
    is 4
    its 2
    keeps 4
    let 6
    life 4
    love 2
    me, 2
    mind 2
    moving 4
    mystery 2
    need 10
    our 4
    reality, 2
    rise 4
    see 4
    see, 2
    should 4
    that 4
    the 2
    they 4
    to 16
    today 4
    together 4
    tomorrow 2
    tomottow 2
    way 8
    we 8
    when 4
    will 4
    you 2
    your 2

    展开全文
  • 阿里云ECS服务器上hadoop安装(单机) 环境说明: jdk 1.8.0_181 系统:GentOs 7 准备工作 创建hadoop安装目录,数据目录 mkdir /usr/local/webserver/hadoop mkdir /data/hadoop/temp mkdir /...

    阿里云ECS服务器上hadoop安装(单机)

    环境说明:

    jdk 1.8.0_181
    系统:GentOs 7

    准备工作

    修改系统hostname
    1. 修改hostname
    [root@aliyunhost sysconfig]# cd /etc/sysconfig/
    [root@aliyunhost sysconfig]# cat network
    # Created by anaconda
    NETWORKING_IPV6=no
    PEERNTP=no
    NETWORKING=yes
    HOSTNAME=aliyunhost

    以上,修改HOSTNAME为我们自定义的hostname,之后,修改host映射

    [root@aliyunhost hadoop]# cd /etc/
    [root@aliyunhost etc]# vim host
    host.conf    hostname     hosts        hosts.allow  hosts.deny 

    原本只需要修改hosts,修改后如下:

    [root@aliyunhost etc]# cat hosts
    127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
    ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
    127.0.0.1   localhost localhost.aliyunhost

    之后重启系统或者网络,发现hostname并未修改成功。
    原因是我们发现在/etc目录下,有hostname这个文件,打开看,修改为:

    [root@aliyunhost etc]# cat hostname
    aliyunhost
    1. 重启网络配置
    [root@aliyunhost etc]# /etc/init.d/network restart
    Restarting network (via systemctl):                        [  OK  ]

    3.用户推出后重新连接,查看hostname

    [root@aliyunhost etc]# hostname
    aliyunhost

    至此,本地host修改和配置完成

    创建hadoop安装目录,数据目录
    mkdir /usr/local/webserver/hadoop  
    mkdir /data/hadoop/temp            
    mkdir /data/hadoop/name
    mkdir /data/hadoop/data
    创建hadoop用户并授权以上目录
    groupadd hadoop
    useradd hadoop -g hadoop -p hadoop
    chown -R hadoop:hadoop /usr/local/webserver/hadoop
    chown -R hadoop:hadoop /data/hadoop
    hadoop安装
    ## 下载
    cd usr/local/webserver/hadoop
    wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz
    ## 解压
    tar -zxvf hadoop-3.1.1.tar.gz
    hadoop配置(5个配置文件)

    进入目录:hadoop-3.1.1/etc/hadoop
    1. 文件1:

    vim hadoop-env.sh

    在文件顶部,加入配置(jdk安装目录根据自己实情):

    export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64
    1. 文件2:
    vim core-site.xml

    文件内容如下:

    <configuration>
        <!-- 指定fs缺省名称 -->
        <property>
          <name>fs.default.name</name>
          <value>hdfs://aliyunhost:9000</value>
        </property>
        <!-- 指定HDFS老大(namenode)的通信地址 -->
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://aliyunhost:9000</value>
        </property>
        <!-- 指定hadoop运行时产生文件的存储路径 -->
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/data/hadoop/temp</value>
        </property>
    </configuration>
    1. 文件3:
    vim hdfs-site.xml

    文件内容如下:

    <configuration>
    <!-- 指定hdfs副本数量 -->
    <property>
      <name>dfs.replication</name>
      <value>1</value>
    </property>
    
    <property>
      <name>dfs.name.dir</name>
      <value>/data/hadoop/name</value>
    </property>
    
    <property>
      <name>dfs.data.dir</name>
      <value>/data/hadoop/data</value>
    </property>
    <property>
      <name>dfs.datanode.http.address</name>
      <value>aliyunhost:9864</value>
    </property>
    </configuration>
    1. 文件4:
    vim mapred-site.xml

    文件内容如下:

    <configuration>
      <!-- 指定使用yarn框架 -->
      <property>
        <name>mapreduce.framework.name</name>
        <value>yarn></value>
      </property>
      <property>
         <name>mapred.job.tracker</name>
         <value>aliyunhosst:9902</value>
      </property>
    </configuration>
    
    1. 文件5:
    vim yarn-site.xml

    文件内容如下:

    <configuration>
    <property>
    <!-- 指定resourceManager地址 -->
      <name>yarn.resourcemanager.hostname</name>
      <value>aliyunhost</value>
    </property>
    
    <!-- reduce获取数据方式 -->
    <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
    </property>
    </configuration>
    1. 此处增加hadoop环境变量配置
    vim /etc/profile

    文件配置内容如下:

    export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64
    export HADOOP_HOME=/usr/local/webserver/hadoop/hadoop-3.1.1
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

    以上,hadoop配置告一段落

    hadoop启动
    1. namenode格式化
      因为已配置hadoop环境变量,直接执行以下命令
    hadoop namenode -format
    1. 启动
    start-dfs.sh

    出现以下错误:

    Last login: Thu Aug 23 14:17:40 CST 2018 from 124.89.85.202 on pts/0
    aliyunhost: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).
    Starting datanodes

    HDFS是分布式系统,所以启动HDFS时,会启动配置的各个服务器节点,包括本机,在启动过程中是通过ssh远程操作的,需要配置免密登录,执行以下命令:

    ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
    cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    chmod 0600 ~/.ssh/authorized_keys 

    再次执行start-dfs.sh,执行jps命令

    1669 NameNode
    11061 Jps
    1782 DataNode
    1959 SecondaryNameNode

    说明启动成功,此时执行命令netstat -nltp

    [root@aliyunhost hadoop]# netstat -nltp
    Active Internet connections (only servers)
    Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name    
    tcp        0      0 0.0.0.0:9867            0.0.0.0:*               LISTEN      1782/java           
    tcp        0      0 0.0.0.0:9900            0.0.0.0:*               LISTEN      10729/nginx: master 
    tcp        0      0 0.0.0.0:9100            0.0.0.0:*               LISTEN      10729/nginx: master 
    tcp        0      0 0.0.0.0:9868            0.0.0.0:*               LISTEN      1959/java           
    tcp        0      0 0.0.0.0:9870            0.0.0.0:*               LISTEN      1669/java           
    tcp        0      0 0.0.0.0:22              0.0.0.0:*               LISTEN      29075/sshd          
    tcp        0      0 127.0.0.1:40547         0.0.0.0:*               LISTEN      1782/java           
    tcp        0      0 0.0.0.0:9864            0.0.0.0:*               LISTEN      1782/java           
    tcp        0      0 127.0.0.1:9000          0.0.0.0:*               LISTEN      1669/java           
    tcp        0      0 0.0.0.0:9866            0.0.0.0:*               LISTEN      1782/java 

    以上我们配置了端口9864,这是hadoop提供的web页面端口,浏览器打开http://host:9864

    总结:第一次安装,过程中坑比较多,主要是明白配置的文件中内容的含义,这样更容易解决问题。

    展开全文
  • 服务器hadoop搭建

    2018-09-03 14:52:12
    hadoop单机版搭建,即只有一台服务器hadoop环境,这里省去了集群的多台服务器配置 首先到hadoop的官网去下载hadoop,我这里使用的是2.9.0版本 下载完成后把hadoop解压到需要部署的目录 解压完成后进入...

    title: 单服务器hadoop搭建
    date: 2017-12-21 11:14:03
    tags:

    • hadoop
    • 服务器
      category: hadoop

    hadoop单机版搭建,即只有一台服务器的hadoop环境,这里省去了集群的多台服务器配置

    首先到hadoop的官网去下载hadoop,我这里使用的是2.9.0版本

    下载完成后把hadoop解压到需要部署的目录

    解压完成后进入hadoop目录可以看到如下所示目录,以下介绍每个目录及其作用
    image

    • bin目录:Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。
    • etc目录:Hadoop配置文件所在的目录,包括core-site,xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。
    • include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。
    • lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。
    • libexec:各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。
    • sbin:Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。
    • share:Hadoop各个模块编译后的jar包所在的目录。

    解压完成后需要将hadoop添加到环境变量(下文中除了环境变量。其他地方使用到$HADOOP_HOME的地方均是指hadoop安装目录,请替换为全路径)

    OS X与linux上

    vi ~/.bash_profile
    //在最后加上
    HADOOP_HOME=/Users/xukai/developer/hadoop-2.9.0/
    PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    //保存后执行source使配置生效
    source ~/.bash_profile
    

    然后执行

    hadoop version
    

    如果能看到hadoop的版本信息。表示hadoop环境配置正确

    接着为了hadoop能正常运行。需要修改一些hadoop的配置文件。前面有介绍过hadoop的配置文件都存放在$HADOOP_HOME/etc目录下。

    1.将hadoop-env.sh文件中第25行的${JAVA_HOME}修改为jdk的绝对路径。以防hadoop找不到jdk的安装路径例如

    export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_131.jdk/Contents/Home
    

    2.修改core-site.xml文件中的configuration为如下内容,意思是使用hadoof的默认存储系统,以及hadoop的存储文件的位置

    <configuration>
      <property>
       <name>fs.defaultFS</name>
       <value>hdfs://localhost:9000</value>
      </property>
      <property>
          <name>hadoop.tmp.dir</name>
          <value>$HAOOP_HOME/tmp</value>
      </property>
    </configuration>
    

    3.修改hdfs-site.xml文件中的configuration为如下内容,意思是配置hdfs文件的副本数量与SecondaryNameNode的端口

    <configuration>
      <property>
          <name>dfs.replication</name>
          <value>1</value>
      </property>
      <property>
          <name>dfs.secondary.http.address</name>
          <value>127.0.0.1:50090</value>
      </property>
    </configuration>
    

    4.将mapred-site.xml.template文件重命名为mapred-site.xml并修改文件中configuration为如下内容,意思是指定mr运行在yarn上

    <configuration>
      <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>
      </property>
    </configuration>
    

    5.修改yarn-site.xml文件中的configuration为如下内容,意思是指定ResourceManager的地址与配置reducer获取数据的方式

    <configuration>
      <property>
         <name>yarn.resourcemanager.hostname</name>
         <value>localhost</value>
      </property>
      <property>
         <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
      </property>
    </configuration>
    

    如果是OS X系统还需要配置一下本地22端口可以访问,配置步骤如下

    系统偏好设置 -》 共享 -》 远程登录 选择所有用户。

    接下来进入到$HADOOP_HOME/sbin目录下执行start-all.sh脚本,启动所有的hadoop服务,启动过程中需要输入本机登录密码

    //格式化namenode
    hadoop namenode -format
    ./start-all.sh
    

    如果不想输入密码,请参考ssh免密登录

    启动完成后,输入jps

    如果可以看到如下进程。则表示启动成功

    4576 ResourceManager
    4288 NameNode
    4466 SecondaryNameNode
    4692 Jps
    4660 NodeManager
    4366 DataNode

    展开全文
  • hadoop历史服务器

    千次阅读 2017-01-09 10:31:01
    可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。 默认情况下,hadoop历史服务器是没有启动的,我们可以通过下面的...

    可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。

    默认情况下,hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动hadoop历史服务器

    $ sbin/mr-jobhistory-daemon.sh start historyserver

    在相应机器的19888端口上就可以打开历史服务器的WEB UI界面。

    历史服务器可以单独在一台机器上启动,主要是通过以下的参数配置:
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>0.0.0.0:10020</value>
    </property>
    参数解释:MapReduce JobHistory Server地址。

    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>0.0.0.0:19888</value>
    </property>
    参数解释:MapReduce JobHistory Server Web UI地址。

    在mapred-site.xml文件中进行配置,配置完上述的参数之后,重新启动Hadoop jobhistory,这样我们就可以在mapreduce.jobhistory.webapp.address参数配置的机器上对Hadoop历史作业情况进行查看。 

    这些历史数据存放在HDFS中,可以通过下面的配置来设置在HDFS的什么目录下存放历史作业记录:

    <property>
        <name>mapreduce.jobhistory.done-dir</name>
        <value>${yarn.app.mapreduce.am.staging-dir}/history/done</value>
    </property>

    <property>
        <name>mapreduce.jobhistory.intermediate-done-dir</name>
        <value>${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate</value>
    </property>

    <property>
        <name>yarn.app.mapreduce.am.staging-dir</name>
        <value>/tmp/hadoop-yarn/staging</value>
    </property>

    上面的配置都是默认的值,在mapred-site.xml文件中进行修改。

    mapreduce.jobhistory.done-dir:在什么目录下存放已经运行完的Hadoop作业记录;

    mapreduce.jobhistory.intermediate-done-dir:正在运行的Hadoop作业记录。


    查看运行完的Hadoop作业:

    [sparkadmin@spark5 ~]$ hadoop fs -ls /tmp/hadoop-yarn/staging/history/done/
    Found 3 items
    drwxrwxrwx   - sparkadmin supergroup          0 2015-12-01 00:02 /tmp/hadoop-yarn/staging/history/done/2015
    drwxrwx---   - sparkadmin supergroup          0 2016-12-01 00:07 /tmp/hadoop-yarn/staging/history/done/2016
    drwxrwx---   - sparkadmin supergroup          0 2017-01-01 00:07 /tmp/hadoop-yarn/staging/history/done/2017


    [sparkadmin@spark5 ~]$ hadoop fs -ls /tmp/hadoop-yarn/staging/history/done/2016
    Found 12 items
    drwxrwx---   - sparkadmin supergroup          0 2016-01-31 00:02 /tmp/hadoop-yarn/staging/history/done/2016/01
    drwxrwx---   - sparkadmin supergroup          0 2016-02-29 00:02 /tmp/hadoop-yarn/staging/history/done/2016/02
    drwxrwx---   - sparkadmin supergroup          0 2016-03-31 00:03 /tmp/hadoop-yarn/staging/history/done/2016/03
    drwxrwx---   - sparkadmin supergroup          0 2016-04-30 00:02 /tmp/hadoop-yarn/staging/history/done/2016/04
    drwxrwx---   - sparkadmin supergroup          0 2016-05-31 00:02 /tmp/hadoop-yarn/staging/history/done/2016/05
    drwxrwx---   - sparkadmin supergroup          0 2016-06-30 00:02 /tmp/hadoop-yarn/staging/history/done/2016/06
    drwxrwx---   - sparkadmin supergroup          0 2016-07-31 00:00 /tmp/hadoop-yarn/staging/history/done/2016/07
    drwxrwx---   - sparkadmin supergroup          0 2016-08-31 00:00 /tmp/hadoop-yarn/staging/history/done/2016/08
    drwxrwx---   - sparkadmin supergroup          0 2016-09-30 00:00 /tmp/hadoop-yarn/staging/history/done/2016/09
    drwxrwx---   - sparkadmin supergroup          0 2016-10-31 00:06 /tmp/hadoop-yarn/staging/history/done/2016/10
    drwxrwx---   - sparkadmin supergroup          0 2016-11-30 00:07 /tmp/hadoop-yarn/staging/history/done/2016/11
    drwxrwx---   - sparkadmin supergroup          0 2016-12-31 00:07 /tmp/hadoop-yarn/staging/history/done/2016/12


    [sparkadmin@spark5 ~]$ hadoop fs -ls /tmp/hadoop-yarn/staging/history/done/2016/12
    17/01/09 10:05:36 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    Found 31 items
    drwxrwx---   - sparkadmin supergroup          0 2016-12-09 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/01
    drwxrwx---   - sparkadmin supergroup          0 2016-12-10 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/02
    drwxrwx---   - sparkadmin supergroup          0 2016-12-10 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/03
    drwxrwx---   - sparkadmin supergroup          0 2016-12-11 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/04
    drwxrwx---   - sparkadmin supergroup          0 2016-12-13 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/05
    drwxrwx---   - sparkadmin supergroup          0 2016-12-13 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/06
    drwxrwx---   - sparkadmin supergroup          0 2016-12-15 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/07
    drwxrwx---   - sparkadmin supergroup          0 2016-12-16 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/08
    drwxrwx---   - sparkadmin supergroup          0 2016-12-17 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/09
    drwxrwx---   - sparkadmin supergroup          0 2016-12-18 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/10
    drwxrwx---   - sparkadmin supergroup          0 2016-12-19 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/11
    drwxrwx---   - sparkadmin supergroup          0 2016-12-20 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/12
    drwxrwx---   - sparkadmin supergroup          0 2016-12-21 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/13
    drwxrwx---   - sparkadmin supergroup          0 2016-12-22 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/14
    drwxrwx---   - sparkadmin supergroup          0 2016-12-23 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/15
    drwxrwx---   - sparkadmin supergroup          0 2016-12-24 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/16
    drwxrwx---   - sparkadmin supergroup          0 2016-12-25 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/17
    drwxrwx---   - sparkadmin supergroup          0 2016-12-26 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/18
    drwxrwx---   - sparkadmin supergroup          0 2016-12-27 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/19
    drwxrwx---   - sparkadmin supergroup          0 2016-12-28 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/20
    drwxrwx---   - sparkadmin supergroup          0 2016-12-29 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/21
    drwxrwx---   - sparkadmin supergroup          0 2016-12-30 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/22
    drwxrwx---   - sparkadmin supergroup          0 2016-12-31 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/23
    drwxrwx---   - sparkadmin supergroup          0 2017-01-01 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/24
    drwxrwx---   - sparkadmin supergroup          0 2017-01-02 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/25
    drwxrwx---   - sparkadmin supergroup          0 2017-01-03 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/26
    drwxrwx---   - sparkadmin supergroup          0 2017-01-04 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/27
    drwxrwx---   - sparkadmin supergroup          0 2017-01-05 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/28
    drwxrwx---   - sparkadmin supergroup          0 2017-01-06 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/29
    drwxrwx---   - sparkadmin supergroup          0 2017-01-07 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/30
    drwxrwx---   - sparkadmin supergroup          0 2017-01-08 10:17 /tmp/hadoop-yarn/staging/history/done/2016/12/31


    [sparkadmin@spark5 ~]$ hadoop fs -ls /tmp/hadoop-yarn/staging/history/done/2017/01/09
    Found 2 items
    drwxrwx---   - sparkadmin supergroup          0 2017-01-09 01:04 /tmp/hadoop-yarn/staging/history/done/2017/01/09/000041
    drwxrwx---   - sparkadmin supergroup          0 2017-01-09 08:10 /tmp/hadoop-yarn/staging/history/done/2017/01/09/000042


    [sparkadmin@spark5 ~]$ hadoop fs -ls /tmp/hadoop-yarn/staging/history/done/2017/01/09/000041
    -rwxrwx---   3 sparkadmin supergroup      21171 2017-01-09 00:06 /tmp/hadoop-yarn/staging/history/done/2017/01/09/000041/job_1480040162446_41871-1483891560801-sparkadmin-QueryResult.jar-1483891570304-1-0-SUCCEEDED-default-1483891564771.jhist
    -rwxrwx---   3 sparkadmin supergroup     119729 2017-01-09 00:06 /tmp/hadoop-yarn/staging/history/done/2017/01/09/000041/job_1480040162446_41871_conf.xml
    -rwxrwx---   3 sparkadmin supergroup      21074 2017-01-09 00:06 /tmp/hadoop-yarn/staging/history/done/2017/01/09/000041/job_1480040162446_41872-1483891560520-sparkadmin-QueryResult.jar-1483891569932-1-0-SUCCEEDED-default-1483891564971.jhist
    -rwxrwx---   3 sparkadmin supergroup     119533 2017-01-09 00:06 /tmp/hadoop-yarn/staging/history/done/2017/01/09/000041/job_1480040162446_41872_conf.xml

     
    由于历史作业记录非常多,所以历史作业记录是按照 年/月/日的形式分别存放在相应的目录中,这样便于管理和查找; 
    对于每一个Hadoop历史作业记录相关信息都用两个文件存放,后缀名分别为*.jhist,*.xml。

    *.jhist文件里存放的是具体Hadoop作业的详细信息;*.xml文件里面记录的是相应作业运行时的完整参数配置


    *.jhist文件里存放的是Hadoop job初始化的信息,*.jhist文件里面全部都是Json格式的数据。根据type进行区分这条Json的含义

    {
       "type": "JOB_INITED",
       "event": {
          "org.apache.hadoop.mapreduce.jobhistory.JobInited": {
             "jobid": "job_1388830974669_1215999",
             "launchTime": 1392477383583,
             "totalMaps": 1,
             "totalReduces": 1,
             "jobStatus": "INITED",
             "uberized": false
          }
       }
    }


    如果对Hadoop历史服务器WEB UI上提供的数据不满意,我们可以通过对mapreduce.jobhistory.done-dir配置的目录进行分析,得到我们感兴趣的信息。

    比如统计某天中运行了多少个map、运行最长的作业用了多少时间、每个用户运行的Mapreduce任务数、总共运行了多少Mapreduce数等信息,这样对监控Hadoop集群是很好的,我们可以根据这些信息来确定给某个用户分配资源等等。

    在Hadoop历史服务器的WEB UI上最多显示20000个历史的作业记录信息;其实我们可以通过下面的参数进行配置,然后重启一下Hadoop jobhistory即可。
    <property>
        <name>mapreduce.jobhistory.joblist.cache.size</name>
        <value>20000</value>
    </property>


    展开全文
  • 本篇主要就hadoop服务器操作系统配置进行详细说明,hadoop安装会在下一篇文章中详细的介绍。 hadoop安装包用的是大快DKHadoop发行版,个人觉得DKHadoop的安装过程是比较简单,关于dkhadoop的安装在下一次的分享中再...
  • 一、 服务器规划 二、Hadoop集群环境的准备 搭建Hadoop集群环境之前,需要为搭建Hadoop集群环境做一些相关的准备工作,以达到正确安装...1.添加hadoop用户身份 以root身份登录每台虚拟机服务器,在每台服务器...
  • [Hadoop] Linux用户和Hadoop用户权限

    千次阅读 2018-10-23 15:04:22
    使用root用户登录Linux服务器,新建用户组和用户 [root@vm ~]# groupadd test [root@vm ~]# useradd -d /usr/test/ -m test -g test 2. 新建HDFS用户用户 使用HDFS超级用户在HDFS为新建的Linux用户创建家目录...
  • 1、前言在讲述Hadoop集群搭建之前,首先要了解Hadoop和集群两个名词,Hadoop是由Apache基金会开发的分布式系统基础架构,简单理解就是大数据技术应用的基础。集群可以理解为...
  • Hadoop用户、用户组以及权限

    千次阅读 2020-12-28 12:34:01
    hadoop用户用户组使用的是Linux中的用户组。...刷新hadoop上用户用户组映射 hdfs dfsadmin -refreshUserToGroupsMappings 第一次执行,root用户并没有获得supergroup组的权限,可能是因为执行的机器hado
  • Hadoop入门——初识Hadoop

    万次阅读 多人点赞 2018-07-18 13:55:59
    Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、...
  • 三台阿里云服务器搭建Hadoop3集群

    千次阅读 2020-09-21 21:36:29
    搭建Hadoop集群的目的就是为了管理多台服务器,使多台服务器之间能够协调工作。本文选择了3台阿里云服务器。从下图中可以对整个大数据架构有了大体的了解。 Hadoop主要有HDFS(分布式文件存储系统)、Yarn(集群...
  • 在vSphere ESXI服务器中安装大数据集群,系统镜像为CentOS-7-x86_64-Minimal-1908.iso 版本 CentOS-7-x86_64-Minimal-1908.iso jdk-8u211-linux-x64 apache-phoenix-5.0.0-HBase-2.0-bin apache-...
  • 安装 CentOS 后尚未创建 “hadoop用户,那么需要增加一个名为 hadoop用户 su root #以root账号登录并创建接下来的hadoop用户 useradd -m hadoop -s /bin/bash # 创建新用户Hadoop passwd hadoophadoop...
  • Hadoop

    万次阅读 多人点赞 2019-09-16 22:44:08
    Hadoop简介 Hadoop 的思想之源:Google 第一遇到大数据计算问题的公司 Openstack :NASA 面对的数据和计算难题 - 大量的网页怎么存储 - 搜索算法 带给我们的关键技术和思想(Google三大理论) - GFS 文件存储 - Map-...
  • Hadoop- 3.0 2、安装 SSH 客户端 sudoyuminstallopenssh-clientsopenssh-server 安装完成后,可以使用下面命令进行测试: sshlocalhost 输入 root 账户的密码,如果可以正常登录,则说明SSH安装没有问题。.....
  • ECS服务器搭建hadoop伪分布式

    千次阅读 2019-01-18 13:10:48
    1)阿里云ECS服务器Centos7.5 2)Xshell或者其他和Linux交互的软件(本文用的Bitvise SSH软件) 我用的是Bitvise SSH Bitvise SSH下载 Bitvise SSH使用 里面有讲SSH软件怎么用 3)最好会vim操作(不会也没问题...
  • 阿里云ECS搭建Hadoop集群环境——启动时报错“java.net.BindException: Cannot assign requested address”问题的解决 阿里云ECS搭建Hadoop集群环境——计算时出现“java.lang.IllegalArgumentException: java.net....
  • 服务器搭建hadoop集群

    千次阅读 2016-05-13 23:46:41
    1:环境准备 3台服务器配置如下公网ip 119.29.186.83 内网ip10.104.157.113 公网ip 119.29.250.47 内网ip 10.104.9.181 公网ip 119.29.251.99 内网ip 10.104....在3台机器分别执行//主服务器 vim /etc/sysconfig
  • 一、安装配置JDK,参考另一篇博客:... 二、新建hadoop用户 1.su root #以root账号登录并创建接下来的hadoop新用户 2.通过useradd增加用户: useradd -m hadoop -s /bin/bash # 创建新用户Hado...
  • 1.在服务器上创建Hadoop账号。 以root用户登陆服务器,创建名为Hadoop的新用户并授予最高权限。 # useradd -m hadoop -s /bin/bash # 创建新...# visudo #给hadoop用户赋予最高权限 执行visudo后,下滑找到root ...
  • 摘要:今天教大家如何利用鲲鹏服务器搭建Hadoop全分布式集群,动起来···
  • 文章目录一、Hadoop集群启停脚本 myhadoop.sh1、编写脚本2、脚本解读3、测试二、查看三台服务器Java进程脚本 jpsall1、编写脚本2、脚本解读3、测试三、脚本分发 在配置两个脚本之前,需要配置好ssh免密登陆 一、...
  • VMware Workstation 9下基于Ubuntu 12.10服务器版本的Hadoop集群的配置 (主要参照http://os.51cto.com/art/201211/363116.htm) 一、概述 其实,网上关于Hadoop集群的配置的资料不可谓不少,但是,细细找来,多半...
  • hadoop搭建过程中设置NTP时间服务器

    千次阅读 2017-08-30 15:04:31
    hadoop搭建过程中,必须保证集群内所有主机的时间同步,由于手册中的设置方法略显复杂,以下为一个简单的配置方法: **把hadoop01.com ...[三台服务器 root用户] # date -R 检查系统当前时区 Fri, 03 Mar 201
  • 搭建思路:购买服务器,下载上传软件,用户环境配置,系统环境配置,hadoop配置,格式化HDFS,启动hadoop并验证 一、购买服务器 1、由于经济有限,购买的是腾讯云的学生机,且暂时只买了两台,第三台等基本配置...
  • 一、防火墙设置 停止防火墙 systemctl stop firewalld.service 禁止防火墙开机自启动 ...reboot重启服务器生效 三、修改hosts配置文件 vim /etc/hostname 四、安(1)安装ssh (1)询问时输入y yum in...
  • Hadoop之——搭建ZooKeeper服务器集群

    千次阅读 2015-06-07 20:27:04
    本集群要求集群环境配置有jdk环境、ssh免密码登录、主机名与ip地址映射, /etc/... 1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。  2 在hadoop0的/usr/local目录下,解压缩zookeeper-

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 89,629
精华内容 35,851
关键字:

服务器上查看hadoop用户