精华内容
下载资源
问答
  • 为了方便实验,安装一个Hadoop伪分布平台是很有

    为了方便实验,搭建一个Hadoop伪分布平台是很有必要的

    一、所需的软件

    VMwareworkstation-v9.0.1.zip

    CentOS-6.4-x86_64-bin.iso (安装参考:云计算Hadoop部署和配置详情(一)

    hadoop-2.0.0-cdh4.4.0.rar

    cm4.7.3-centos6.tar.gz

    二、安装软件

    安装VMware

    在虚拟机上安装CentOS

    三、准备工作

    关闭selinux

    修改网络驱动配置

    安装jdk (参考:云计算Hadoop部署和配置详情(一)

    四、部署伪分布

    1、/etc/yum.repo.d/ 首先确认此目录下已建立了以下三个文件:

    (1)cloudera-cdh4.repo (cdh文件资源)

    [cloudera-cdh4]
    # Packages for Cloudera's Distribution for Hadoop, Version 4, on RedHat or CentOS 6 x86_64
    name=Cloudera's Distribution for Hadoop, Version 4
    baseurl=http://192.168.1.2/cdh/4/
    gpgkey=http://192.168.1.2/cdh/RPM-GPG-KEY-cloudera   
    gpgcheck = 1

    (2)cloudera-dvd-1.repo (Centos系统文件资源)

    [cloudera-dvd-1]
    # Packages for Cloudera's Distribution for Hadoop, Version 4, on RedHat or CentOS 6 x86_64
    name=Cloudera's Distribution for Hadoop, Version 4
    baseurl=http://192.168.1.2/dvd-1/
    gpgkey=http://192.168.1.2/dvd-1/RPM-GPG-KEY-CentOS-6
    gpgcheck=1

    (3)cloudera-manager.repo (cm资源,安装jdk需要的)

    [cloudera-manager]
    # Packages for Cloudera's Distribution for Hadoop, Version 4, on RedHat or CentOS 6 x86_64
    name=Cloudera's Distribution for Hadoop, Version 4
    baseurl=http://192.168.130.56/cm/4/
    gpgkey=http://192.168.130.56/cm/RPM-GPG-KEY-cloudera
    gpgcheck=1

    2、安装配置

    yum install hadoop-conf-pseudo

    rpm -ql hadoop-conf-pseudo


    cp -r /etc/hadoop/conf.pseudo /opt/hadoop/conf/


    alternatives --verbose --install /etc/hadoop/confhadoop-conf /etc/hadoop/conf.empty 10


    alternatives --verbose --install /etc/hadoop/confhadoop-conf /etc/hadoop/conf 50


    vim /var/lib/alternatives/hadoop-conf


    sudo -u hdfs hdfs namenode -format


    for x in `cd /etc/init.d ; ls hadoop-hdfs-*` ; do sudoservice $x start ; done


    浏览器查看http://localhost:50070/



    sudo -u hdfs hadoop fs -rm -r /tmp

    sudo -u hdfs hadoop fs -mkdir /tmp


    sudo -u hdfs hadoop fs -chmod -R 1777 /tmp


    sudo -u hdfs hadoop fs -mkdir /tmp/hadoop-yarn/staging


    sudo -u hdfs hadoop fs -chmod -R 1777/tmp/hadoop-yarn/staging


    sudo -u hdfs hadoop fs -mkdir/tmp/hadoop-yarn/staging/history/done_intermediate


    sudo -u hdfs hadoop fs -chmod -R 1777/tmp/hadoop-yarn/staging/history/done_intermediate


    sudo -u hdfs hadoop fs -chown -R mapred:mapred/tmp/hadoop-yarn/staging


    sudo -u hdfs hadoop fs -mkdir /var/log/hadoop-yarn


    sudo -u hdfs hadoop fs -chown yarn:mapred/var/log/hadoop-yarn


    sudo -u hdfs hadoop fs -ls -R /


    sudo service hadoop-yarn-resourcemanager start


    sudo service hadoop-yarn-nodemanager start


    sudo service hadoop-mapreduce-historyserver start


    sudo -u hdfs hadoop fs -mkdir /usr/$USER


    sudo -u hdfs hadoop fs -chown $USER /usr/$USER


    sudo -u hdfs hadoop fs -mkdir /usr/xjp sudo -u hdfshadoop fs -chown xjp /usr/xjp


    sudo -u hdfs hadoop fs -mkdir /usr/xjp/input


    sudo -u hdfs hadoop fs -put /etc/hadoop/conf/*.xml/usr/xjp/input


    sudo -u hdfs hadoop fs -ls /usr/xjp/input


    sudo -u hdfs hadoop exportHADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce


    sudo -u hdfs hadoop jar/usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar grep /usr/xjp/input/usr/xjp/output1 'dfs[a-z.]+'


    sudo -u hdfs hadoop fs -ls


    sudo -u hdfs hadoop fs -put word.txt /usr/xjp


    sudo -u hdfs hadoop jar example.jar /usr/xjp/word.txt/usr/xjp/output1


    jps[查询hadoop启动的进程]


    五、常见的错误:


    [re-format question:Hadoop datanode is dead and pid fileexists]


    java.io.IOException: Incompatible clusterIDs in/var/lib/hadoop-hdfs/cache/hdfs/dfs/data: namenode clusterID =CID-86e39214-94c8-4742-9f3e-37ddc43a0c53; datanode clusterID =CID-f77249c0-4c71-437c-8feb-bf401c42ee11

    rm/var/lib/hadoop-hdfs/cache/hdfs/dfs/data -rf

    安装虚拟机上 可以备份部署伪分布之前的系统状态,以便安装不成功之后,可以一键恢复再一次部署伪分布!

    参考书:CDH4-Quick-Start.pdf

    
    展开全文
  • 第 PAGE 4页共 NUMPAGES 35页 Hadoop云计算平台实验报告V1.1 目录 TOC \o "1-5" \h \z \u 1 实验目标 3 2 实验原理 4 2.1 Hadoop工作原理 4 2.2 实验设计 6 2.2.1 可扩展性 6 2.2.2 稳定性 7 2.2.3 可靠性 7 3 实验...
  • 云计算与分布式系统 实验课时 6 实验项目 在最终部署的Hadoop上运行WordCount程序 实验时间 2015年6月11日星期四 实验目的 首先通过Linux系统和KVM虚拟机的安装达成对Linux系统与虚拟机相关知识的了解和熟悉 通过...
  • 精品文档 四 川 大 学 计 算 机 学 院软 件 学 院 实 验 报 告 学号 : 姓名 专业 班级 9 第 15 周 课程 实验课时 6 云计算与分布式系统 名称 实验 Hadoop 上运行 WordCount 程序 实验时间 2015 年 6 月 11 日星期四 ...
  • Hadoop云计算实验报告

    2015-06-14 20:46:47
    在虚拟机Ubuntu上安装Hadoop单机模式和集群; 编写一个用Hadoop处理数据的程序,在单机和集群上运行程序。
  • 虚拟化与云计算 实 验 报 告 目录 TOC \o "1-5" \h \z \o "Current Document" 一实验目标 1 \o "Current Document" 二实验内容 1 三实验步骤 1 \o "Current Document" 四实验遇到的问题及其解决方法 24 \o "Current ...
  • Hadoop实践与应用 主要内容 实验1 HDFS Shell命令操作 实验2 HDFS的Java访问接口 实验3 MapReduce应用程序实践 实验1 HDFS Shell命令操作 HDFS基本概念 主从架构模型系统一个HDFS集群由一个Master节点和 多个Slave...
  • hadoop安装部署
  • 云计算——Hadoop2的搭建 1 实验环境 2创建hadoop用户 1.在终端窗口,输入如下命令创建可以登陆的 hadoop 新用户,并使用 /bin/bash 作为 shell。 2.使用如下命令设置密码,按提示输入两次: 3.为 hadoop ...

    云计算——Hadoop2的搭建

    1 实验环境

    2创建hadoop用户

    1.在终端窗口,输入如下命令创建可以登陆的 hadoop 新用户,并使用 /bin/bash 作为 shell。

    2.使用如下命令设置密码,按提示输入两次:

    3.为 hadoop 用户增加管理员权限,方便部署,避免一些权限问题:

    4.注销当前用户,在登录界面使用刚刚创建的hadoop进行登录。

          

    更新apt

    1.用 hadoop 用户登录后,更新一下 apt,因为后续将使用 apt 安装软件,未更新可能导致部分软件安装失败。

    2.安装vim以便后续更改配置文件

    4    安装SSH并配置SSH无密码登录

    1.由于Ubuntu 默认已安装了 SSH client,所以还需要安装 SSH server

    由于前面未登出Ubuntu本机用户,在那时已安装SSH(可见下文实验中遇到的问题),在Hadoop账号中安装显示如下:

     

     

    2.安装后,登录本机

    3.提示(SSH首次登陆提示)后,输入 yes 。然后按提示输入密码

          4.由于这样登陆需要每次输入密码,进行SSH无密码登陆配置。

    首先退出 ssh,回到终端窗口

    然后利用 ssh-keygen 生成密钥,对所有提示按回车键

    命令:ssh-keygen -t rsa

    将密钥加入到授权中:

    此时再用 ssh localhost 命令,无需输入密码就可以直接登陆:

    SSH无密码登录配置完毕

    5    安装Java环境

    1.通过命令安装 OpenJDK 7

    由于前面未登出Ubuntu本机用户,在那时已安装OpenJDK 7(可见下——实验中遇到的问题)

    2.安装好 OpenJDK 后,找到相应的安装路径,用于配置 JAVA_HOME 环境变量的。执行如下命令:

    该命令输出的路径,除去路径末尾的 “/bin/javac”,剩下的就是正确的路径。

    如图输出路径为 /usr/lib/jvm/java-7-openjdk-amd64/bin/javac,

    则需要的路径为 /usr/lib/jvm/java-7-openjdk-amd64。

    3.配置 JAVA_HOME 环境变量,在 ~/.bashrc 中进行设置

    在文件最前面添加如下单独一行(注意 = 号前后不能有空格),并保存退出:

     

    4. 让该环境变量生效,执行如下代码

     

    5. 设置好后检验一下是否设置正确:

    检验变量值,如果设置正确的话,$JAVA_HOME/bin/java -version 会输出 java 的版本信息,且和 java -version 的输出结果一样。

     

    Hadoop所需Java环境安装完毕。

     

    6    安装Hadoop2

    1.在http://mirrors.cnnic.cn/apache/hadoop/common/上下载hadoop2,选择下载最新的稳定版本,即下载 “stable” 下的 hadoop-2.9.1.tar.gz 这个文件

    记录下载地址

    https://www-eu.apache.org/dist/hadoop/common/stable/

    打开 hadoop-2.9.1.tar.gz.mds 这个文件,该文件包含了检验值可用于检查 hadoop-2.9.1.tar.gz 的完整性,否则若文件发生了损坏或下载不完整,Hadoop 将无法正常运行。

    查看hadoop-2.9.1.tar.gz.mds 文件如下:

     

    2.计算hadoop-2.9.1.tar.gz 的md5值,并转化为大写,方便比较

    和hadoop-2.9.1.tar.gz.mds中 的MD5值对比,发现完全相同,即文件完整,下载正确。

    3. 将 Hadoop 安装至 /usr/local/ 中

    解压到/usr/local中

    将文件夹名改为hadoop

    修改文件权限

    4、输入命令cd hadoop来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息。

    7    Hadoop单机配置(非分布式)

    Hadoop 默认模式为非分布式模式,无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。

    运行测试验证:

    选择运行 grep ,将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数,最后输出结果到 output 文件夹中。

    将配置文件作为输入文件

    查看运行结果

    执行成功后如图所示,输出的结果是符合正则的单词 dfsadmin 出现了1次

    8 Hadoop伪分布式配置

    Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。

    Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

    1.修改配置文件 core-site.xml

    将core-site.xml中的

    修改为

    2.同样修改配置文件 hdfs-site.xml

    将 hdfs-site.xml:中的

    修改为

    3. 配置完成后,执行 NameNode 的格式化:

     

    4开启 NaneNode 和 DataNode 守护进程

    出现WARN ,可忽略。

    启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程:

    即成功启动hadoop

    5. 成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。

     

     

    运行Hadoop伪分布式实例

    1. 单机模式,grep 例子读取的是本地数据,伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录:

    1. 将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中,即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input1 中。由于使用的是 hadoop 用户,并且已创建相应的用户目录 /user/hadoop ,因此在命令中就可以使用相对路径如 input1,其对应的绝对路径就是 /user/hadoop/input1:

    1. 复制完成后,可以通过命令 ./bin/hdfs dfs -ls input1查看文件列表
    2. 伪分布式运行 MapReduce 作业的方式跟单机模式相同,区别在于伪分布式读取的是HDFS中的文件(可以将单机步骤中创建的本地 input 文件夹,输出结果 output 文件夹都删掉来验证这一点)。

    1. 查看运行结果的命令(查看的是位于 HDFS 中的输出结果):

    由于刚才更改了配置文件,所以运行结果不同。

    1. 将运行结果取回到本地:

    先删除本地output1文件(如果存在):

    将 HDFS 上的 output 文件夹拷贝到本机:

    查看:

    1. 关闭 Hadoop,则运行

    实验完成。

     

    10 实验中遇到的问题

     1. 在创建hadoop用户后忘记注销使用新创建的hadoop而延续自己的原Ubuntu账户,导致ssh登录按要求输入密码报错。

    期间已花大量时间完成apt的更新,vim、ssh的安装和jdk的下载,绝望。

     

    2. 执行 namenode 的格式化:

    报错如图

    输入sudo bin/hdfs namenode -format 

    报错如下

    啊啊啊为什么!!!

    修正:

    在文件 ./etc/hadoop/hadoop-env.sh 中设置 JAVA_HOME 变量

    找到        

    将其修改为

    再重新尝试,还是不行。。。。。

    查看网上资料,说是/usr/hadoop/tmp的权限没有设置,重新设置权限

    再次运行

    成功了!!!

    3. 开始忽略问题2,直接开启 NaneNode 和 DataNode 守护进程

    通过命令 jps 列出如下进程:

    Namenode未开启,与问题2有关,解决问题2 后问题3 解决

    有用就点个赞吧

    展开全文
  • 计算机科学与技术学院 网络计算设计与实现 实验指导书 实验一 SOCKET 编程 试验环境 计算机 TCP/IP 协议 VS2005 实验目的 1理解基本 TCP/IP 协议编程原理 2掌握如何利用 SOCKET 编写网络程序 3掌握 VS2005 编程环境...
  • hadoop常用命令
  • 云计算应用实验报告

    2018-11-12 22:14:17
    通过实验,掌握Hadoop环境的搭建,学会Hadoop的简单编程应用。
  • # Hadoop 前言 # Hadoop试验集群的部署结构 # 系统和组建的依赖关系 # 生产环境的部署结构 # Day1 搭建伪分布实验环境 # 准备软件 # vmare 9.0.2 # 操作系统 CentOS 6.4 # jdk-6u45-linux-i586.bin # hadoop-1.1.2....
  • 课程实验题目:hadoop的测试 时间:15周-18周 一、 课程实验目的与要求 熟练掌握Linux的相关命令并会配置java环境。 学会安装Hadoop并配置Hadoop的环境。 深入理解MapReduce并会进行Hadoop的编程。 熟练搭建平台和...

    【云计算】Hadoop,测试wordcount

    一、 学习目的

    1. 熟练掌握Linux的相关命令并会配置java环境。
    2. 学会安装Hadoop并配置Hadoop的环境。
    3. 深入理解MapReduce并会进行Hadoop的编程。
    4. 熟练搭建平台和环境,能执行MapReduce实例,同时会使用自带工具TestDFSIO来测试I/O。

    二、实验内容

    1. Install Virtual Machine and Linux
    2. Install Hadoop
    3. Testing Hadoop Performance
    4. Realize and run Hadoop application
    5. Report

    三、 课程实验设备与环境
    VMware Workstation Pro 14.0
    Centos 7
    Xshell 5
    Hadoop-2.9.2
    Jdk1.8.0_191

    四、 设计过程

    1. 安装虚拟机软件和Linux
      1.1 安装Virtual Machine虚拟机软件,并在虚拟机上安装Linux,我装的是Centos7
      在这里插入图片描述
      1.2 找到安装Linux的IP地址,可以用Xshell进行命令行管理虚拟机
      1.2.1 通过su命令切换到root用户,因为root的权限比一般用户大
      在这里插入图片描述
      1.2.2 输入 ls /etc/sysconfig/network-scripts命令(注意ls与/etc之间有空格),找到ifcfg-ens33这个文件
      在这里插入图片描述
      1.2.3 然后,输入vi /etc/sysconfig/network-scripts/ifcfg-ens33命令(注意vi与/etc之间有空格),输入这个命令后,会打开ifcfg-ens33这个文件,如图:
      在这里插入图片描述
      1.2.4 如果你的是显示的“ONBOOT=no”,就不能上网。下面先把它改为“yes”。
      先使用方向键将光标移动到ONBOOT=no那一行,然后按下字母 “i”,此时屏幕下方会出现“INSERT”字样,就可以进行修改操作
      在这里插入图片描述
      修改完成后按“Esc”退出编辑,按“:wq”保存编辑。然后执行service network restart命令,等待重启network。开机后输密码进入操作系统,接着再次换root账户进入终端。 输入“ping www.baidu.com”出现如下图所示,即连上了网络,按ctrl +c 结束指令。
      在这里插入图片描述
      安装一个“ifconfig”命令,ifconfig命令被用于配置和显示Linux内核中网络接口的网络参数,使用:yum install net-tools
      我们输入ifconfig
      在这里插入图片描述
      我们可以看到我们的IP地址为192.168.140.134
      接下来用Xshell来登录
      在这里插入图片描述
      1.3 通过xshell工具成功连接安装好的虚拟机之后可通过rpm -qa | grep java或 rpm -qa | grep jdk 命令来查询出系统自带的jdk
      在这里插入图片描述
      1.4 清除Linux自带的openjdk
      然后通过 rpm -e --nodeps 后面跟系统自带的jdk名
      这个命令来删除系统自带的jdk
      例如:
    rpm -e --nodeps java-1.7.0-openjdk-1.7.0.191-2.6.15.5.el7.x86_64
    rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.191-2.6.15.5.el7.x86_64
    rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.181-7.b13.el7.x86_64
    rpm -e --nodeps java-1.8.0-openjdk-1.8.0.181-7.b13.el7.x86_64
    

    删完之后可以再通过 rpm -qa | grep java或 rpm -qa | grep jdk 命令来查询出是否删除掉
    在这里插入图片描述
    1.5 安装一个新的orcle的jdk
    接下来就是要安装自己的jdk了,通过命令cd /usr/local/ 进入local目录,并通过 ll(两个小写的L)命令或者 ls 命令(ll本身不是命令,只是 ls -l 命令的一个别名)列出当前目录下得所有非隐含的文件,如果想要看到隐含(以.开头的,如.test.txt)文件信息可通过ll –a(ls -all)来查看
    在这里插入图片描述
    进入local目录之后 通过mkdir java命令来创建java目录存放自己的jdk
    (扩展:如果你想一次性在同一级目录下创建多个平级的目录可以通过 mkdir brother1 brother2 (如要创建更多就在后面加上去就可以了,中间用空格隔开)这样的命令来创建,如果要一次创建父子目录(parent/child)可以通过 mkdir -p parent/child/grandson 来创建)

    cd /usr/local //进入usr的local目录
    mkdir java //在local目录下创建于一个java文件夹用来存放jdk
    

    此时多出一个java文件夹
    在这里插入图片描述
    创建好之后,进入java目录cd java
    在线导入安装包的插件,如果之前没有用过可以通过yum -y install lrzsz命令安装这个插件
    我们导入jdk包
    在这里插入图片描述
    传输好后解压一下,并删除原来的压缩文件

    tar -zxvf jdk-8u191-linux-x64.tar.gz
    rm -rf jdk-8u191-linux-x64.tar.gz
    

    在这里插入图片描述

    这时安装包已经没用了,我一般都会删掉安装包 ,通过 rm -rf jdk-8u191-linux-x64.tar.gz删除安装包 -f的意思就是不询问删除,如果你不加 -f 在删除时它会询问你是否要删除该安装包,我是确定要删了就加上 -f 了。这里还有递归删除不询问的命令,如果你要删除一个目录,而这个目录下还有目录或者有文件,比如在parent/child/grandson 这样的目录下你要删除 parent 下得所有目录和文件(包括parent)就可以用到rm -rf parent 命令就可以删除掉了。
    删掉安装包之后就开始配置环境变量了,通过vim /etc/profile命令打开profile文件盘配置环境变量。
    打开之后按 i 进入insert(插入)模式,在文件末尾添加上环境变量

    export JAVA_HOME=/usr/local/java/jdk1.8.0_191
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export PATH=$PATH:$JAVA_HOME/bin
    

    在这里插入图片描述

    添加完之后保存并退出,保存并退出的命令有两种
    第一种是:按住shift 键然后连按两次z(这是我常用的,因为它方便快速),
    第二种是:wq 命令,有一种是不保存退出的命令:q ,注意:以上三种命令都是在非插入模式(插入模式下按键盘左上角的ESC键退出插入模式就是非插入模式了)下操作。
    保存完之后输入:source /etc/profile命令使刚才配置的环境变量生效
    现在就可以测试jdk了,输入javac命令如果出现以下的文字就说明编译成功了
    在这里插入图片描述
    接下来我们通过 java -version命令来查看你安装的jdk信息
    在这里插入图片描述
    2. 安装并配置hadoop的环境
    2.1 hadoop的下载
    在 Apache的 Hadoop项目界面找到hadoop的 hadoop下载地址
    http://hadoop.apache.org/releases.html
    因为直接从Apache官方下载文件速度很慢,所以在表格下面选择别的镜像站地址。
    在弹出的界面中会推荐一个下载速度很快的国内镜像站。
    2.2 配置ssh免密码登录
    以下操作均在root用户中进行,centos7 可以在命令行中使用 su 命令,输入密码后进入root用户。并且默认centos系统中已经正确的配置好了java环境
    2.2.1 进入当前用户目录,找到 .ssh 文件夹

    cd ~    //切换到当前用户的用户目录下
    ls -all   //查看当前用户目录下的所有文件
    

    查看当前用户的目录下是否有.ssh文件夹,如果没有就自己创建一个 mkdir .ssh
    2.2.2 生成私钥和公钥

    cd .ssh                 
    ssh-keygen -t rsa // 生成公钥和私钥,期间系统会询问密钥的保存位置,直接一路回车确认即可
    cp id_rsa.pub authorized_keys // 复制公钥
    

    2.2.3 验证ssh免密码登录是否成功

    ssh localhost //ssh登录本机,第一次登录可能需要输入一次密码,退出之后再登录就不需要了
    exit
    

    在这里插入图片描述
    2.3 解压Hadoop源文件

    cd /usr/local
    rz
    tar -zxvf hadoop-2.9.2.tar.gz
    rm -rf hadoop-2.9.2.tar.gz
    

    在这里插入图片描述

    2.4 配置hadoop环境变量

    vim /etc/profile //配置系统变量,配置之后可在全局任意地方使用Hadoop命令
    打开文件之后,在文件的最后面添加hadoop的配置信息
    export HADOOP_HOME=/usr/local/hadoop-2.9.2 //这个地方记得修改成自己Hadoop安装目录的地址
    export PATH=$HADOOP_HOME/bin:$PATH           
    //使配置文件生效
    source /etc/profile                             
    //之后可以输入命令验证配置是否正确生效
    

    在这里插入图片描述
    在这里插入图片描述

    2.5 修改hadoop配置文件
    修改 /usr/local/hadoop-2.9.2/etc/hadoop/ 下面的hadoop配置文件hadoop-env.sh、hdfs-site.xml、core-site.xml这三个文件

    cd /usr/local/hadoop-2.9.2/etc/hadoop/  //切换到Hadoop配置文件所在的目录
    

    (1) hadoop-env.sh
    将文件中的

    export JAVA_HOME=${JAVA_HOME}改成
    export JAVA_HOME=/usr/local/java/jdk1.8.0_191
    export HADOOP_CONF_DIR=/usr/local/hadoop-2.9.2/etc/hadoop/  
    

    在这里插入图片描述

    (2) hdfs-site.xml
    补充最后的属性:

    <configuration>
            <property>
                    <name>dfs.replication</name>
                    <value>1</value>
            </property>
    </configuration>
    

    在这里插入图片描述

    (3) core-site.xml
    在文件的最后补充:

    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
    </configuration>
    

    在这里插入图片描述

    2.6 启动hadoop

    cd /usr/local/hadoop-2.9.2/bin
    hdfs namenode -format  
    cd /usr/local/hadoop-2.9.2/sbin 
    ./start-dfs.sh 
    jps
    

    在这里插入图片描述
    在这里插入图片描述
    在centos系统的浏览器中输入 http://localhost:50070 查看运行在本机上的hadoop的运行状态
    在这里插入图片描述
    2.7 配置YARN
    修改 /usr/local/hadoop-2.9.2/etc/hadoop 目录下的YARN配置文件
    cd /usr/local/hadoop-2.9.2/etc/hadoop
    mv mapred-site.xml.template mapred-site.xml //首先复制YARN配置文件
    (1) mapred-site.xml
    在最后修改:

    <configuration>
            <property>
                 <name>mapreduce.framework.name</name>
                 <value>yarn</value>
            </property>
    </configuration>
    

    在这里插入图片描述

    (2) yarn-site.xml
    在最后修改:

    <configuration>
    <property>
    <name>yarn.nodemanager.aux-services</name>
      		<value>mapreduce_shuffle</value>
     	</property>
     	<property>
      		<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
      		<value>org.apache.hadoop.mapred.ShuffleHandler</value>
     	</property>
    </configuration>
    

    在这里插入图片描述

    运行YARN,验证是否成功

    cd /usr/local/hadoop-2.9.2/sbin
    ./start-yarn.sh  //开启YARN
    jps
    

    在这里插入图片描述

    在浏览器中输入 http://localhost:8088 查看YARN管理的集群状态
    在这里插入图片描述
    3. 测试hadoop
    TestDFSIO
    该测试为Hadoop自带的测试工具,位于$HADOOP_HOME/share/hadoop/mapreduce目录中,主要用于测试DFS的IO性能
    我的Hadoop文件安装目录在/usr/local/hadoop-2.9.2工具在/usr/local/hadoop-2.9.2/share/hadoop/mapreduce目录中

    yarn jar hadoop-mapreduce-client-jobclient-2.9.2-tests.jar
    

    步骤
    1、写入测试,向DFS中写入10个512MB的文件

    yarn jar /usr/local/hadoop-2.9.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.9.2-tests.jar TestDFSIO -write -nrFiles 10 -size 512 -resFile /tmp/dfsio.txt
    

    在这里插入图片描述

    2、清除写入的文件

    yarn jar /usr/local/hadoop-2.9.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.9.2-tests.jar TestDFSIO -clean
    

    在这里插入图片描述

    3、读取测试,在HDFS中读取10个512MB的文件

    yarn jar /usr/local/hadoop-2.9.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.9.2-tests.jar TestDFSIO -read -nrFiles 10 -size 512 -resFile /tmp/dfsio.txt
    

    在这里插入图片描述

    1. 用mapduce实现一个程序
      4.1 写一个txt文件导入到root目录下
      在这里插入图片描述
      4.2 将写的txt文件上传到hadoop文件目录下
    hadoop fs -mkdir /input         //在HDFS的根目录下新建 input 目录
    hadoop fs -put classic story.txt /input //将本地的txt文件上传到HDFS的 input 目录下
    hadoop fs -ls -R /           //查看文件是否成功上传到HDFS上面
    

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    4.3 在电脑写一个wordcount程序,生成jar包
    WordCount程序代码如下:

    import java.io.IOException;
    import java.util.StringTokenizer;
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.Mapper;
    import org.apache.hadoop.mapreduce.Reducer;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
    public class WordCount {
    	public static class WordCountMap extends
    			Mapper<LongWritable, Text, Text, IntWritable> {
    		private final IntWritable one = new IntWritable(1);
    		private Text word = new Text();
    		public void map(LongWritable key, Text value, Context context)
    				throws IOException, InterruptedException {
    			String line = value.toString();
    			StringTokenizer token = new StringTokenizer(line);
    			while (token.hasMoreTokens()) {
    				word.set(token.nextToken());
    				context.write(word, one);
    			}
    		}
    	}
    	public static class WordCountReduce extends
    			Reducer<Text, IntWritable, Text, IntWritable> {
    		public void reduce(Text key, Iterable<IntWritable> values,
    				Context context) throws IOException, InterruptedException {
    			int sum = 0;
    			for (IntWritable val : values) {
    				sum += val.get();
    			}
    			context.write(key, new IntWritable(sum));
    		}
    	}
    	public static void main(String[] args) throws Exception {
    		Configuration conf = new Configuration();
    		Job job = new Job(conf);
    		job.setJarByClass(WordCount.class);
    		job.setJobName("wordcount");
    		job.setOutputKeyClass(Text.class);
    		job.setOutputValueClass(IntWritable.class);
    		job.setMapperClass(WordCountMap.class);
    		job.setReducerClass(WordCountReduce.class);
    		job.setInputFormatClass(TextInputFormat.class);
    		job.setOutputFormatClass(TextOutputFormat.class);
    		FileInputFormat.addInputPath(job, new Path(args[0]));
    		FileOutputFormat.setOutputPath(job, new Path(args[1]));
    		job.waitForCompletion(true);
    	}
    }
    

    4.4 将wordcount.jar放到root目录中
    在这里插入图片描述
    在这里插入图片描述
    4.5 执行wordcount程序

    hadoop jar /root/wordcount.jar WordCount /input /output     
    

    在这里插入图片描述
    在这里插入图片描述
    4.6 记录结果文件
    在这里插入图片描述
    在这里插入图片描述
    如果要从HDFS中删除文件,可以使用以下命令:

    hadoop fs -rm -r -skipTrash /path_to_file/file_name
    

    五、 拓展
    What do you think about the Cloud Computing?
    在这里插入图片描述
    什么是云计算?狭义的云计算是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。这种特性经常被称为像水电一样使用IT基础设施。广义的云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的,也可以是任意其他的服务。

    展开全文
  • 1、实验目的 搭建 Hadoop 运行环境,了解其基本操作。 2、实验内容 一、搭建 Hadoop 在个人电脑上搭建 Hadoop,操作系统 Linux/Windows 都可以,可使用虚拟机,单节点(如果时间充裕,可以搭建多节点)。 参考: ...

    1、实验目的
    搭建 Hadoop 运行环境,了解其基本操作。
    2、实验内容
    一、搭建 Hadoop
    在个人电脑上搭建 Hadoop,操作系统 Linux/Windows 都可以,可使用虚拟机,单节点(如果时间充裕,可以搭建多节点)。
    参考:
    http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
    https://wiki.apache.org/hadoop/Hadoop2OnWindows
    网上还有很多中文资料,可自行搜索。

    1、为了实验的方便起见,彻底关闭防火墙
    在这里插入图片描述
    2、更改了计算机名为node1 node2 node3,方便操作。
    3、三者的ip地址
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    4、更改三者的hosts文件(名称和ip对应),这里是因为hadoop规定必须要有名称
    vi /etc/hosts
    在这里插入图片描述

    5、如果为了方便起见,可以直接安装openjdk,如果是生产环境可能考虑要手动安装。
    在这里插入图片描述
    我之前已经安装了jdk1.8,位置在/usr/bin/java(注意这只是个程序)安装命令是
    yum install java-1.8.0-openjdk-devel.x86_64
    我这里不是直接安装的,而是手动安装的jdk1.7,复制解压配置path即可,比较简单,不再赘述,位置在/usr/java/jdk1.7.0_80,程序jdk版本和hadoop使用的jdk版本不要搞错了,否则运行的时候报错。
    6、SSH协议配置
    SSH全称secure shell ,默认22端口,通俗的来讲是用来连接远程linux服务器的,使用了非对称加密算法, 熟悉RSA的人应该对此很了解,而且它主要有两个作用,正向和逆向能用来加密或验证。在每个用户下的.ssh文件夹里有四个文件authorized_keys id_rsa id_rsa.pub known_hosts,分别是存放的公钥、私钥、公钥和已知的客户端,已知的客户端主要是为了防范中间人攻击的,存放的公钥是用来保存可以登录的主机地公钥,因为只有对应私钥加密的内容才能被公钥解密,所以可以用来验证客户端身份。所以我们只用每个服务器生成一对公钥和私钥,再把3个公钥放到一个文本文档里authorized_keys,再复制到另外两个客户端里即可。

    7、测试登录,由于三者都一样,故不再赘述。
    在这里插入图片描述
    用这种方式登录的好处是不需要再输入密码,一次设置,永远安全。同时这也是hadoop的必须达到的要求,因为它需要主机之间自由的通信和操作。

    8、下载hadoop-2.6.0.tar.gz,解压,这里我解压过了就不再运行了
    x是解压的意思,z是对应tar.gz文件的意思(tar是将多个文件合并为一个文件,gz是一种压缩格式),v是verbose (啰嗦)就是在页面上打印调试信息,f指定文件,一定要写在所有可选选项的最后。
    在这里插入图片描述
    9、配置java位置
    在这里插入图片描述
    都加入一句话
    在这里插入图片描述
    为你安装java的位置
    10、编写配置文件
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    11、只有master才需要编写slaves文件
    在这里插入图片描述
    12、格式化

    • NameNode 格式化
      bin/hdfs namenode -format – 产生一个Cluster ID

    • 指定Cluster ID
      bin/hdfs namenode -format -clusterid yarn-cluster

    13、启动各项服务

    • 启动NameNode
      sbin/hadoop-daemon.sh start namenode

    • 启动DataNode
      sbin/hadoop-daemon.sh start datanode

    • 启动SecondaryNameNode
      sbin/hadoop-daemon.sh start secondarynamenode

    。。。。。。

    14、全部启动成功后查看JPS
    在这里插入图片描述
    至此说明安装并启动成功。

    15、安装成功,面板上Live Npdes显示3个节点都已经启动,其中node1是主节点,node2 node3是从节点
    在这里插入图片描述

    二、运行第一个 Hadoop 实例wordcount
    Wordcount 是 Hadoop 中的 HelloWorld 的程序。尝试正确运行 Wordcount。

    1、创建输入和输出文件夹,存放所有的输入文件和输出,本次实验输入文件夹为/data/wordcount/ 输出文件夹为 /output 注意输出文件夹必须不存在,由程序自行创建,不能手动创建,这是hadoop的规定,没有为什么。
    1.[hadoop@node1 mapreduce]$ /home/hadoop/hadoop-2.6.0/bin/hadoop fs -mkdir -p /data/wordcount
    2.19/04/28 09:03:58 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    3.[hadoop@node1 mapreduce]$ /home/hadoop/hadoop-2.6.0/bin/hadoop fs -ls /
    4.19/04/28 09:04:21 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    5.Found 5 items
    6.drwxr-xr-x - hadoop supergroup 0 2019-04-28 09:04 /data
    7.drwxr-xr-x - hadoop supergroup 0 2019-04-02 01:47 /output
    8.drwxr-xr-x - hadoop supergroup 0 2019-04-02 01:27 /people
    9.drwxr-xr-x - hadoop supergroup 0 2019-04-21 23:55 /tmp
    10.drwxr-xr-x - hadoop supergroup 0 2019-04-02 01:37 /user
    11.[hadoop@node1 mapreduce]$ /home/hadoop/hadoop-2.6.0/bin/hadoop fs -rm -r /output
    12.19/04/28 09:04:44 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    13.19/04/28 09:04:45 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
    14.Deleted /output

    2、创建一个文本文本用来做词频统计
    15.[hadoop@node1 mapreduce]$ cat > myword.txt
    16.leaf yyh
    17.yyh xpleaf
    18.katy ling
    19.yeyonghao leaf
    20.xpleaf katy
    3、上传该文本到hdfs
    21.[hadoop@node1 mapreduce]$ /home/hadoop/hadoop-2.6.0/bin/hadoop fs -put myword.txt /data/wordcount
    22.19/04/28 09:05:47 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    23.[hadoop@node1 mapreduce]$ /home/hadoop/hadoop-2.6.0/bin/hadoop fs -ls /data/wordcount
    24.19/04/28 09:06:09 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    25.Found 1 items
    26.-rw-r–r-- 2 hadoop supergroup 57 2019-04-28 09:05 /data/wordcount/myword.txt
    27.[hadoop@node1 mapreduce]$ /home/hadoop/hadoop-2.6.0/bin/hadoop fs -cat /data/wordcount
    28.19/04/28 09:06:24 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    29.cat: `/data/wordcount’: Is a directory
    4、打印已上传到hdfs的文本文档
    30.[hadoop@node1 mapreduce]$ /home/hadoop/hadoop-2.6.0/bin/hadoop fs -cat /data/wordcount/myword.txt
    31.19/04/28 09:06:39 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    32.leaf yyh
    33.yyh xpleaf
    34.katy ling
    35.yeyonghao leaf
    36.xpleaf katy
    5、运行自带的wordcount程序
    37.[hadoop@node1 mapreduce]$ /home/hadoop/hadoop-2.6.0/bin/hadoop jar hadoop-mapreduce-examples-2.6.0.jar wordcount /data/wordcount /output
    38.19/04/28 09:08:23 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    39.19/04/28 09:08:26 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
    40.19/04/28 09:08:30 INFO input.FileInputFormat: Total input paths to process : 1
    41.19/04/28 09:08:30 INFO mapreduce.JobSubmitter: number of splits:1
    42.19/04/28 09:08:31 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1554212690488_0004
    43.19/04/28 09:08:32 INFO impl.YarnClientImpl: Submitted application application_1554212690488_0004
    44.19/04/28 09:08:33 INFO mapreduce.Job: The url to track the job: http://node1:8088/proxy/application_1554212690488_0004/
    45.19/04/28 09:08:33 INFO mapreduce.Job: Running job: job_1554212690488_0004
    46.19/04/28 09:08:59 INFO mapreduce.Job: Job job_1554212690488_0004 running in uber mode : false
    47.19/04/28 09:08:59 INFO mapreduce.Job: map 0% reduce 0%
    48.19/04/28 09:09:17 INFO mapreduce.Job: map 100% reduce 0%
    49.19/04/28 09:09:36 INFO mapreduce.Job: map 100% reduce 100%
    50.19/04/28 09:09:37 INFO mapreduce.Job: Job job_1554212690488_0004 completed successfully
    51.19/04/28 09:09:38 INFO mapreduce.Job: Counters: 49
    52. File System Counters
    53. FILE: Number of bytes read=78
    54. FILE: Number of bytes written=212117
    55. FILE: Number of read operations=0
    56. FILE: Number of large read operations=0
    57. FILE: Number of write operations=0
    58. HDFS: Number of bytes read=165
    59. HDFS: Number of bytes written=48
    60. HDFS: Number of read operations=6
    61. HDFS: Number of large read operations=0
    62. HDFS: Number of write operations=2
    63. Job Counters
    64. Launched map tasks=1
    65. Launched reduce tasks=1
    66. Data-local map tasks=1
    67. Total time spent by all maps in occupied slots (ms)=14647
    68. Total time spent by all reduces in occupied slots (ms)=15235
    69. Total time spent by all map tasks (ms)=14647
    70. Total time spent by all reduce tasks (ms)=15235
    71. Total vcore-seconds taken by all map tasks=14647
    72. Total vcore-seconds taken by all reduce tasks=15235
    73. Total megabyte-seconds taken by all map tasks=14998528
    74. Total megabyte-seconds taken by all reduce tasks=15600640
    75. Map-Reduce Framework
    76. Map input records=5
    77. Map output records=10
    78. Map output bytes=97
    79. Map output materialized bytes=78
    80. Input split bytes=108
    81. Combine input records=10
    82. Combine output records=6
    83. Reduce input groups=6
    84. Reduce shuffle bytes=78
    85. Reduce input records=6
    86. Reduce output records=6
    87. Spilled Records=12
    88. Shuffled Maps =1
    89. Failed Shuffles=0
    90. Merged Map outputs=1
    91. GC time elapsed (ms)=321
    92. CPU time spent (ms)=3430
    93. Physical memory (bytes) snapshot=283787264
    94. Virtual memory (bytes) snapshot=1680564224
    95. Total committed heap usage (bytes)=136056832
    96. Shuffle Errors
    97. BAD_ID=0
    98. CONNECTION=0
    99. IO_ERROR=0
    100. WRONG_LENGTH=0
    101. WRONG_MAP=0
    102. WRONG_REDUCE=0
    103. File Input Format Counters
    104. Bytes Read=57
    105. File Output Format Counters
    106. Bytes Written=48
    6、实验结果
    107.[hadoop@node1 mapreduce]$ /home/hadoop/hadoop-2.6.0/bin/hadoop fs -cat /output/part-r-00000
    108.19/04/28 09:12:59 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    109.katy 2
    110.leaf 2
    111.ling 1
    112.xpleaf 2
    113.yeyonghao 1
    114.yyh 2
    115.[hadoop@node1 mapreduce]$
    7、结果截图
    在这里插入图片描述

    三、拓展:自己编写wordcount
    项目结构
    在这里插入图片描述

    • 本地测试的时候要删除output文件夹(hadoop的规定)。

    pom依赖
    在这里插入图片描述
    代码
    在这里插入图片描述
    本地测试
    main函数的参数设置 输入文件夹input 输出文件夹output
    在这里插入图片描述
    输入文件夹input下的两个文件
    在这里插入图片描述
    在这里插入图片描述
    本地测试运行结果
    在这里插入图片描述

    手动上传到云端测试

    使用maven工具或命令打包成jar
    在这里插入图片描述
    复制jar手动上传到服务器
    在这里插入图片描述
    检查了权限发现的确属于hadoop用户和组

    运行
    发现了jdk版本不符的错误
    在这里插入图片描述
    改变jdk版本再打包
    在这里插入图片描述
    还是报错,仔细检查了之后发现是我习惯不好,在mvn packging之前应该先clean一下,否则会影响打包好的jar。
    1.[hadoop@node1 ~]$ /home/hadoop/hadoop-2.6.0/bin/hadoop jar WordCount_v1_0-1.0-SNAPSHOT.jar org.myorg.WordCount /data/wordcount /output
    2.19/04/29 01:15:43 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    3.19/04/29 01:15:44 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
    4.19/04/29 01:15:44 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
    5.19/04/29 01:15:45 WARN mapreduce.JobSubmitter: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
    6.19/04/29 01:15:45 INFO mapred.FileInputFormat: Total input paths to process : 1
    7.19/04/29 01:15:45 INFO mapreduce.JobSubmitter: number of splits:2
    8.19/04/29 01:15:46 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1554212690488_0005
    9.19/04/29 01:15:46 INFO impl.YarnClientImpl: Submitted application application_1554212690488_0005
    10.19/04/29 01:15:46 INFO mapreduce.Job: The url to track the job: http://node1:8088/proxy/application_1554212690488_0005/
    11.19/04/29 01:15:46 INFO mapreduce.Job: Running job: job_1554212690488_0005
    12.19/04/29 01:15:55 INFO mapreduce.Job: Job job_1554212690488_0005 running in uber mode : false
    13.19/04/29 01:15:55 INFO mapreduce.Job: map 0% reduce 0%
    14.19/04/29 01:16:09 INFO mapreduce.Job: map 100% reduce 0%
    15.19/04/29 01:16:17 INFO mapreduce.Job: map 100% reduce 100%
    16.19/04/29 01:16:18 INFO mapreduce.Job: Job job_1554212690488_0005 completed successfully
    17.19/04/29 01:16:18 INFO mapreduce.Job: Counters: 49
    18. File System Counters
    19. FILE: Number of bytes read=113
    20. FILE: Number of bytes written=318501
    21. FILE: Number of read operations=0
    22. FILE: Number of large read operations=0
    23. FILE: Number of write operations=0
    24. HDFS: Number of bytes read=276
    25. HDFS: Number of bytes written=48
    26. HDFS: Number of read operations=9
    27. HDFS: Number of large read operations=0
    28. HDFS: Number of write operations=2
    29. Job Counters
    30. Launched map tasks=2
    31. Launched reduce tasks=1
    32. Data-local map tasks=2
    33. Total time spent by all maps in occupied slots (ms)=20922
    34. Total time spent by all reduces in occupied slots (ms)=5634
    35. Total time spent by all map tasks (ms)=20922
    36. Total time spent by all reduce tasks (ms)=5634
    37. Total vcore-seconds taken by all map tasks=20922
    38. Total vcore-seconds taken by all reduce tasks=5634
    39. Total megabyte-seconds taken by all map tasks=21424128
    40. Total megabyte-seconds taken by all reduce tasks=5769216
    41. Map-Reduce Framework
    42. Map input records=5
    43. Map output records=10
    44. Map output bytes=97
    45. Map output materialized bytes=119
    46. Input split bytes=190
    47. Combine input records=10
    48. Combine output records=9
    49. Reduce input groups=6
    50. Reduce shuffle bytes=119
    51. Reduce input records=9
    52. Reduce output records=6
    53. Spilled Records=18
    54. Shuffled Maps =2
    55. Failed Shuffles=0
    56. Merged Map outputs=2
    57. GC time elapsed (ms)=261
    58. CPU time spent (ms)=2330
    59. Physical memory (bytes) snapshot=470757376
    60. Virtual memory (bytes) snapshot=2517786624
    61. Total committed heap usage (bytes)=256581632
    62. Shuffle Errors
    63. BAD_ID=0
    64. CONNECTION=0
    65. IO_ERROR=0
    66. WRONG_LENGTH=0
    67. WRONG_MAP=0
    68. WRONG_REDUCE=0
    69. File Input Format Counters
    70. Bytes Read=86
    71. File Output Format Counters
    72. Bytes Written=48
    73.[hadoop@node1 ~]$ /home/hadoop/hadoop-2.6.0/bin/hadoop fs -cat /output/part-00000
    74.19/04/29 01:25:13 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
    75.katy 2
    76.leaf 2
    77.ling 1
    78.xpleaf 2
    79.yeyonghao 1
    80.yyh 2
    81.[hadoop@node1 hadoop-2.6.0]$
    由于结果一致,故不再赘述。

    手动上传还是很麻烦,可以考虑用eclipse的hadoop插件,自己编写hdfs代码上传等方式

    展开全文
  • 云计算上机实验

    千次阅读 2016-12-24 23:55:12
     安装xshell、xftp、VMware,VMware的安装序列号为:5A02H-AU243-TZJ49-GTC7K-3C61N 在VMware中修改最大内存上限并启动HDP,待完成后根据提示使用...旧密码:hadoop ...使用xftp替换/etc/hadoop/2.3
  • 一、实验目的 熟悉Hadoop分布式集群的搭建过程 学习Hadoop分布式集群的使用示例 二、实验内容 搭建Hadoop分布式集群环境 掌握HDFS常见操作,自行编写一个英文文本文件,上传至HDFS中 使用Hadoop提供的example...
  • 云计算实验报告---Hadoop

    千次阅读 2017-04-14 15:25:00
    云计算实验报告 MapReduce ----------------------个人作业,如果有后辈的作业习题一致,可以参考学习,一起交流,请勿直接copy,搭建环境有问题的同学可以评论或者私信一起讨论 -----------...
  • 云计算原理课程 期末实践报告 题目Linux 集群MapReduce 和 CloudSim 实践 成绩 学号 姓名 罗滔 登录邮箱 任课老师 许娟 2016 年 11 月 12 日 目录 实验一 AWS...实验三 Hadoop实验报告 ( P21~) AWS管理控制台 使用 qw
  • 云计算实验报告.pdf

    2020-07-12 22:22:05
    云计算原理课程 期末实践报告 题目 Linux 集群 MapReduce 和 CloudSim 实践 成绩 学号 姓名 罗滔 登录邮箱 任课老师 许娟 2016 年 11 月 12 日 目录 实验...P11~P20) 实验三 Hadoop实验报告 ( P21~) AWS管理控制台 使用
  • 本讲通过实验的方式讲解Hadoop文件系统的操作。 “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎...
  • z. z. z. z. 云计算原理课程 期末实践报告 题目Linux 集群MapReduce 禾口 CloudSim 实践 成绩 学号 161440119 : 罗滔 登录邮箱 750785185qq. 任课老师 许娟 2016年11月12日 实验一AWS身份与访问...P2C 实验三Hadoop实验
  • 课程原地址:http://hbust.shiyanbar.com/course/91079上课老师:李歆实验时间:20180607地点:云桌面实验人:郭畅 实验目的1) 学会hadoop伪分布式配置2) 理解伪分布式配置的配置文件 实验原理Hadoop伪分布式配置...
  • 云计算技术课程实验

    2020-04-27 19:48:18
    大三上学期云计算技术课程的实验部分总结。该实验主要是对于分布式计算环境Spark进行配置以及利用开源图计算平台GraphX实现pagerank算法。 开发环境搭建 java开发环境搭建 使用java --version查看java版本及安装...
  • 云计算 实验7

    2020-09-28 17:24:54
    Introducon to Cloud Compung-- Hadoop and MapReduce Target: Objecves: Understanding the concept of MapReduce Model Building a file system in a distributed way that store large data trunks Merging all ...
  • 本讲通过实验的方式讲解Hadoop文件系统的操作。 “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家...
  • 探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法。云计算(CloudComputing)是一种新兴的商业计算模型。它将计算任务分布在...
  • 云计算实验[共2页].doc

    2020-06-30 01:33:47
    计算机系云计算实验报告-实验3 实验名称简单数据统计 实验目的1基本了解一个Hadoop程序的结构编译封装运行查看结果等流程 2掌握并利用并行化编程思想对数据开展简单的统计 问题描述编写Mapreduce程序读取文本文件...
  • 本文在对云计算Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法,建立了基于Hadoop的海量电信数据云计算平台。实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据...

空空如也

空空如也

1 2 3 4 5 ... 8
收藏数 150
精华内容 60
关键字:

云计算hadoop实验