hadoop运行流程
2018-09-04 18:20:00 qq_29721419 阅读数 1808

Hadoop的架构

在其核心,Hadoop主要有两个层次,即:

  • 加工/计算层(MapReduce)
  • 存储层(Hadoop分布式文件系统)

除了上面提到的两个核心组件,Hadoop的框架还包括以下两个模块:

  • Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具
  • Hadoop YARN :这是作业调度和集群资源管理的框架

Hadoop Streaming 是一个实用程序,它允许用户使用任何可执行文件(例如shell实用程序)作为映射器和/或reducer创建和运行作业。

HDFS:

HDFS遵循主从架构,它具有以下元素。

1、名称节点 -Namenode

名称节点是包含GNU/Linux操作系统和软件名称节点的普通硬件。它是一个可以在商品硬件上运行的软件。具有名称节点系统作为主服务器,它执行以下任务:
- 管理文件系统命名空间。
- 规范客户端对文件的访问。
- 它也执行文件系统操作,如重命名,关闭和打开的文件和目录。

2、数据节点 - Datanode

Datanode具有GNU/Linux操作系统和软件Datanode的普通硬件。对于集群中的每个节点(普通硬件/系统),有一个数据节点。这些节点管理数据存储在它们的系统。
- 数据节点上的文件系统执行的读写操作,根据客户的请求。
- 还根据名称节点的指令执行操作,如块的创建,删除和复制。

3、块 -block

一般用户数据存储在HDFS文件。在一个文件系统中的文件将被划分为一个或多个段和/或存储在个人数据的节点。这些文件段被称为块。换句话说,数据的HDFS可以读取或写入的最小量被称为一个块。缺省的块大小为64MB,但它可以增加按需要在HDFS配置来改变

HDFS常用命令

  • 运行jar包:hadoop jar /Users/kexin/work/projects/Hadoop/target/hadoop-0.0.1-SNAPSHOT.jar com.kexin.hadoop.units.WordCount /test/test.txt /project/wordcount/output
  • 文件系统操作:hadoop fs -cat|ls|mkdir
  • 上传文件:hadoop dfs -put ./testdata.txt /testdata
  • 递归删除目录及文件:hadoop fs -rmr /testdata
  • 删除文件:hadoop fs -rm /testdata.txt

MapReduce

教程:
- https://www.cnblogs.com/huxinga/p/6939896.html
- http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v2.0

MapReduce计划分三个阶段执行,即映射阶段,shuffle阶段,并减少阶段。

涉及到的角色:

1、客户端(client):编写mapreduce程序,配置作业,提交作业,这就是程序员完成的工作;

2、JobTracker:初始化作业,分配作业,与TaskTracker通信,协调整个作业的执行;

3、TaskTracker:保持与JobTracker的通信,在分配的数据片段上执行Map或Reduce任务,TaskTracker和JobTracker的不同有个很重要的方面,就是在执行任务时候TaskTracker可以有n多个,JobTracker则只会有一个(JobTracker只能有一个就和hdfs里namenode一样存在单点故障,我会在后面的mapreduce的相关问题里讲到这个问题的)

4、Hdfs:保存作业的数据、配置信息等等,最后的结果也是保存在hdfs上面

  • map阶段:映射或映射器的工作是处理输入数据。一般输入数据以存储在HDFS的文件或目录的形式,输入文件被传递到映射器功能线路,映射器处理该数据,并创建数据的若干小块。

  • reduce阶段:这个阶段是Shuffle阶段和Reduce阶段的组合。减速器的工作是处理该来自映射器中的数据。处理之后,它产生一组新的输出,这将被存储在HDFS。

image

在一个MapReduce工作过程中:

1、由Hadoop发送Map和Reduce任务到集群的相应服务器

2、框架管理数据传递,例如发出任务的所有节点之间的集群周围的详细信息,验证任务完成,和复制数据

3、大部分的计算发生在与在本地磁盘上,可以减少网络通信量数据的节点

4、给定的任务完成后,将收集并减少了数据,以一个合适的结果发送回Hadoop服务器

应用程序通常实现Mapper和Reducer接口以提供map和reduce方法:

public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

在idea中远程调试程序

  System.setProperty("hadoop.home.dir", "/Users/kexin/work/app/hadoop/hadoop-2.6.5");

    Configuration conf = new Configuration();
    String uri = "hdfs://localhost:9000";
    Job job = null;
    try {
        job = Job.getInstance(conf);
    } catch (IOException e) {
        e.printStackTrace();
    }
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);

    FileSystem fs = FileSystem.get(URI.create(uri), conf);

    try {
        FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/test/test.txt"));
        Path outpath = new Path("hdfs://localhost:9000/project/wordcount/output");
        if (fs.exists(outpath)) {
            fs.delete(outpath, true);
        }
        FileOutputFormat.setOutputPath(job, outpath);
    } catch (IllegalArgumentException | IOException e) {
        e.printStackTrace();
    }

    try {
        job.submit();
    } catch (ClassNotFoundException | IOException | InterruptedException e) {
        e.printStackTrace();
    }

在idea中本地调试程序

System.setProperty("hadoop.home.dir", "/Users/kexin/work/app/hadoop/hadoop-2.6.5");

    Configuration config = new Configuration();

    try {
        FileSystem fs = FileSystem.get(config);

        Job job = Job.getInstance(config);
        job.setJarByClass(WordCount.class);

        job.setJobName("word count");

        job.setMapperClass(TokenizerMapper.class);
        job.setReducerClass(IntSumReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path("/Users/kexin/work/projects/Hadoop/src/main/resources/input"));
        Path outpath = new Path("/Users/kexin/work/projects/Hadoop/src/main/resources/output");
        if (fs.exists(outpath)) {
            fs.delete(outpath, true);
        }
        FileOutputFormat.setOutputPath(job, outpath);

        boolean f = job.waitForCompletion(true);
        if (f) {
            System.out.println("job任务执行成功");
        }
    } catch (Exception e) {
        e.printStackTrace();
    }

1、映射器

映射器将输入k/v对映射到一组中间k/v对。转换后的中间记录不需要与输入记录的类型相同。给定的输入对可以映射到零个或多个输出对。通过调用context.write(WritableComparable,Writable)来收集输出对。

Hadoop MapReduce框架为作业的InputFormat生成的每个InputSplit生成一个map任务。

总的来说,映射器实现通过Job.setMapperClass(Class)方法传递给作业。然后,框架为InputSplit中的每个k/v对调用该任务的map。

映射的数量通常由输入的总大小驱动,即输入文件的块总数。也可以使用Configuration.set(MRJobConfig.NUM_MAPS,int)来设置映射数量。

随后将与给定输出键关联的所有中间值按框架分组,并传递给Reducer以确定最终输出。用户可以通过Job.setGroupingComparatorClass(Class)指定Comparator来控制分组。

对Mapper输出进行排序,然后根据Reducer进行分区。分区总数与作业的reduce任务数相同。用户可以通过实现自定义分区程序来控制哪些键(以及记录)转到哪个Reducer。

用户可以选择通过Job.setCombinerClass(Class)指定组合器来执行中间输出的本地聚合,比如合并重复的key,这有助于减少从Mapper传输到Reducer的数据量。

2、Reducer

Reducer有3个主要阶段:shuffle,sort和reduce

1、shuffle

Reducer的输入是映射器的排序输出。在此阶段,框架通过HTTP获取所有映射器的输出的相关分区

2、sort

框架在此阶段按键(因为不同的映射器可能输出相同的键)对Reducer输入进行分组。在获取map输出结果时,shuffle和sort阶段同时进行。

如果要求对中间密钥进行分组的等价规则与在减少之前对密钥进行分组的等价规则不同,则可以通过Job.setSortComparatorClass(Class)指定比较器。由于Job.setGroupingComparatorClass(Class)可用于控制中间键的分组方式,因此可以结合使用这些键来模拟值的二级排序。

3、reduce

在此阶段,为分组输入中的每个

2018-06-09 17:57:00 weixin_36250487 阅读数 3155

格式:hadoop fs -命令

主要有如下的命令:

命令说明
hadoop fs -mkdir创建HDFS目录
hadoop fs -ls列出HDFS目录
hadoop fs -copyFromLocal

使用-copyFromLocal复制本地文件(local)到HDFS

hadoop fs -put使用-put复制本地(local)文件到HDFS
hadoop fs -copyToLocal将HDFS上的文件复制到本地(local)
hadoop fs -get将HDFS上的文件复制到本地(local)
hadoop fs -cp复制HDFS文件
hadoop fs -rm删除HDFS文件
hadoop fs -cat列出HDFS目录下的文件的内容
【一、创建与查看HDFS目录】
1、创建HDFS目录:

2、查看之前创建的HDFS目录

注意:因为登录的用户为hduser,所以会显示/user/hduser下的目录。

3、查看HDFS完整目录

因为hadoop fs -ls只能查看一级目录,所以必须逐级查看:


4、查看所有的HDFS子目录

HDFS提供了一个方便的选项 -R 可以递归查看目录


5、一次性创建所有HDFS子目录

逐级创建很麻烦,但是可以添加参数-p,来一次性创建多级目录:



【二、从本地计算机复制文件到HDFS】

1、复制本地文件到HDFS:


2、列出文件内容:


可以使用:hadoop fs -cat /user/hduser/test/test1.txt | more   进行分页显示

3、如果复制到HDFS的文件已经存在,会报错,此时可以使用-f 参数,强制复制重复文件到HDFS目录:


4、从本地复制多个文件到HDFS,中间用空格分割即可。

5、从本地复制整个目录到HDFS:


6、列出HDFS目录下的所有文件(包括这个目录下子目录的文件)


7、使用put复制文件到HDFS,这个参数与copyFromLocal的不同之处在于:

-put更宽松,可以把本地或者HDFS上的文件拷贝到HDFS中;而-copyFromLocal则更严格限制只能拷贝本地文件到HDFS中。如果本地和HDFS上都存在相同路径,则-put跟趋于优先取HDFS的源。(不用太深究两者区别,更多用-put)



【三、从HDFS上复制文件到本地】

1、参数 -copyToLocal


2、同样的也可以用参数-get完成上述操作:


【四、复制与删除HDFS文件】

1、使用-cp参数,在HDFS上进行复制文件


2、使用-rm参数,删除HDFS上的文件;添加-R参数,删除目录:

 

在http://master:50070上可以浏览和操作HDFS的目录和文件

2017-09-03 13:52:25 u013595419 阅读数 2069

什么是Hadoop?

Hadoop是Apache的一款开源框架,使用java语言编写,可以通过编写简单的程序来实现大规模数据集合的分布式计算。工作在Hadoop框架上的应用可以工作在分布式存储和计算机集群计算的环境上面。Hadoop具有高扩展性,其集群能够从单台机器扩展到数千台机器。
Hadoop 采用的是Apache v2协议,Hadoop基于Google发布的MapReduce论文实现,并且应用了函数式编程的思想。

Hadoop 架构

Hadoop框架包括下述三个个模块

HDFS, MapReduce, YARN

HDFS

Hadoop Distributed File System (HDFS) 是Hadoop集群中最根本的文件系统,它提供了高扩展,高容错,机架感知数据存储等特性,可以非常方便的部署在机器上面。HDFS除过分布式文件系统所通有的特点之外,还有些仅属自己的特点:

  • 对硬件故障的考虑设计
  • 更大的数据单元,默认的块大小为128M
  • 对序列操作的优化
  • 机架感知
  • 支持异构集群和跨平台

Hadoop集群中的数据被划分成更小的单元(通常被称为),并且将其分布式存储在集群中,每个块有两个副本,这个两个副本被存储在集群的的一个机架上。这样数据包含自身便有三个副本,具有极高的可用性和容错性,如果一个副本丢失,HDFS将会自动的重新复制一份,以确保集群中一共包含三个数据副本(包含自身)。

HDFS也可以有多种形式,这个取决于Hadoop版本及所需功能。

HDFS是Leader/Follower架构实现的,每个集群都必须包含一个NameNode节点,和一个可选的SecondaryName节点,以及任意数量的DataNodes。

除了管理文件系统命名空间和管理元数据之外,NameNode对clients而言,还扮演着master和brokers的角色(虽然clients是直接与DataNode进行通信的)。NameNode完全存在于内存中,但它仍然会将自身状态写入磁盘。

HDFS 的替代文件系统

HDFS是Hadoop中经典的文件系统,但是Hadoop并不仅仅支持HDFS,它还支持其他的文件系统,比如Local file system, FTP, AWS S3, Azure’s file system, 和OpenStack’s Swift,这些文件系统可以在使用时根据不同URI进行区分。比如:

file: for the local file system
s3: for data stored on Amazon S3

MapReduce

MapReduce是为能够在集群上分布式处理海量数据而量身订做的框架,MapReduce job可以分为三次连续过程。

  • Map 将输入数据划分为key-value集合
  • Shuffle 将Map产生的结果传输给Reduce
  • Reduce 则对接收到的key-value进一步处理

MapReduce的最大工作单元便是job,每个job又会被分割成map task或reduce task。最经典的MapReduce job便是统计文档中单词出现的频率,这个过程可以使用下图来描述

mapreduce

YARN

YARN (Yet Another Resource Negotiator) 是为应用执行分配计算资源的一个框架。YARN主要包含下面三个核心组件

  • ResourceManager(一个集群只有一个)
  • ApplicationMaster(每个应用都有一个)
  • NodeManagers (每个节点都有一个)

yarn

Note:

YARN 使用了一些容易让人误解的名词作为术语,因此应该特别注意。比如在Hadoop ecosystem中,Container这个概念,平常我们听到Container时,我们都认为是与Docker相关。但是这里却是指Resource Container (RC),即表示物理资源的集合。通常被抽象的表示,将资源分配给到目标和可分配单元。
Application也是一个熟词僻义的用法,在YARN中,一个Application指的是被一并执行的task的集合,YARN中的Application的概念大概类似于MapReduce中的job这个概念。

ResourceManager

ResourceManager在YARN中是一个rack-aware master节点,它主要负责管理所有可用资源的集合和运行一些至关重要的服务,其中最重要的便是Scheduler

Scheduler组件是YARN Resourcemanager中向运行时应用分配资源的一个重要组件,它仅仅完成资源调度的功能,并不完成监控应用状态和进度的功能,因此即使应用执行失败,它也不会去重启失败的应用。

但是在Hadoop 2.7.2开始,YARN开始支持少数调度策略CapacitySchedulerFairScheduler,FIFO Scheduler。默认情况下由Hadoop来负责决定使用哪种调度策略,无论使用那种调度策略,Scheduler都会通过Continer来向请求的ApplicationMaster分配资源。

ApplicationMaster

每个运行在Hadoop上面的应用都会有自己专用的ApplicationMaster实例。每个实例进会存在于集群中每个节点仅属于自己的单独Container。每个Application的ApplicationMaster都会周期性的向ResourceManager发送心跳消息,如果有需要的话,还会去向ResourceManger请求额外的资源,ResourceManager便会为额外的资源划分租期(表明该资源已被某NodeManager所持有)

ApplicationMaster会监控每个application的整个生命周期,从向ResourceManager请求额外的资源到向NodeManager提交请求。

NodeManagers

NodeManager可以认为是监控每个节点的Container的代理,会监控每个Container的整个生命周期,包括Continer的资源使用情况,与ResourceManager的周期性通信。

从概念上来说,NodeManager更像是Hadoop早期版本的TaskTrackers,当时Taskrackers主要被用来解决调度map和reduce slots问题,NodeManager有一个动态创建的,任意大小的Resouce Containers(RCs),并不像MR1中的那种slots,RCs可以被用在map tasks中,reduce tasks中,或者是其他框架的tasks

为了更好的描述YARN,这里给出一个YARN application的执行过程。如下图所示:

yarn

  1. client向ResourceManager提交一个MapReduce应用,和启动指定应用的ApplicationMaster所需要的信息。
  2. ResourceManager 会为ApplicationMaster分派一个Container,并且启动Application
  3. ApplicationMaster启动,接着向ResourceManager注册自己,允许调用client直接与ApplicationMaster交互
  4. ApplicatoinMaster为客户端应用分配资源
  5. ApplicationMaster为application启动Container
  6. 在执行期间,clients向Applicationaster提交application状态和进度
  7. apllication执行完成,ApplicationMaster向ResouceManager撤销掉自己的注册信息,然后关机,将自己所持有的Container归还给资源池。

Reference

Hadoop architectural overview

2017-11-19 23:29:10 debugAL 阅读数 2382

最近闲来无事,和朋友志声大神一起想学习Hadoop,最晚弄机器的弄到两点多,今天动手和志声一起安装Hadoop的环境,刚开始也是一头雾水啊,Hadoop官网 的教程我也是醉了,说的牛头不对马嘴,最后只能通过各种百度解决了问题,最后把安装的一些操作都记录下来,希望可以帮助到后来人

环境

这里我们使用了两台腾讯云的机器以及一台阿里云的机器,本来是准备搭建一个Hadoop集群的,但是由于两个人都没有任何的大数据的经验,所以先在我的阿里云机器上部署了一套单机版的Hadoop测试一下,看看能不能行
* 操作系统:centOS 7.3
* JAVA版本:jdk1.8
* Hadoop版本:Hadoop2.9.0(binary)

这里顺带附上Hadoop的下载地址 http://hadoop.apache.org/releases.html

开始安装

  • ### 安装java环境变量
    • 先下载java版本,如果机器上自带了openjdk请先卸载自带的openJDK
    • 下载好后将jdk放到自己的机器上,本人放在 /user/local/java目录下
    • 解压tar -zxvf yourjavajdkname
    • 解压后就可以在当前目录下看到解压的文件夹了,然后配置Java的环境变量 sudo vim + /etc/profile
    • 在文件最后加上以下代码

      export JAVA_HOME=/usr/local/java/java_1.8
      export PATH=$PATH:$JAVA_HOME/bin
      export CLASSPATH=.:$JAVA_HOME/lib

      注:java1.8是我本人将jdk解压后的文件夹重命名为java_1.8
    • source /etc/profile编译一下
    • 输入java -version看看有没有版本信息输出,有的话就是安装成功了
    • ### 配置hosts端口
    • sudo vim + /etc/hosts
    • 在文件末尾加上自己机器的IP和别名为了以后做集群做准备
    • ### 配置SSH免密登录
      注:同样是为了以后做集群做准备
    • 安装expect命令 : yum -y install expect
    • 下载ssh_p2p.zip放在任意目录下
    • unzip ssh_p2p 如果没有unzip命令,先安装unzip
    • 安装unzip命令,如果已经有了,可以跳过这一步,yum -y install unzip
    • 修改resource的ip值vim /ssh_p2p/deploy_data/resource
    • 添加如下代码:

      adress=(
      "IP,登录账号,登录密码,free"
      "IP,登录账号,登录密码,free"
      "IP,登录账号,登录密码,free"
      )
    • 修改start.sh的运行权限
      chmod u+x start.sh
    • 运行 ./start.sh
    • 测试: ssh ip(测试是否可以登录)

到这里我们为后面做安装集群的准备就好了

  • 配置Hadoop

    • 将下载好的Hadoop上传到我们的机器,然后解压,我本人在/usr/local/目录下新建了一个hadoop目录,然后把下载好的压缩包上传到/usr/local/hadoop目录下
    • 解压 tar -zxvf hadoopfilename
    • 然后修改hadoop解压目录下的/etc/hadoop/hadoop-env.sh文件 sudo vim + /usr/local/hadoop/hadoop-2.9.0/etc/hadoop
    • 将Java home的路径配置进去,如果不知道或者不记得自己的JavaHome路径可以用下面的命令,echo ${JAVA_HOME}输出javaHome的路径,得到了javaHome的路径后,添加下面代码
      export JAVA_HOME = /usr/local/java/java_1.8,这是我本人的JavaHome路径,
      *然后配置Hadoop的环境变量,和我们配置java的环境变量一样,使用以下命令
      sudo vim + /etc/profile,

    • 添加以下代码:

      export HADOOP_HOME= /usr/local/hadoop/hadoop-2.9.0/
      export PATH=$PATH:$HADOOP_HOME/bin
    • source /etc/profile编译让我们刚刚修改生效

    • 修改/usr/local/hadoop/hadoop-2.9.0/etc/hadoop/core-site.xml文件

      <configuration>  
      <!-- 指定HDFS namenode 的通信地址 -->  
      <property>  
          <name>fs.defaultFS</name>  
          <value>hdfs://localhost:9000</value>  
      </property>  
      <!-- 指定hadoop运行时产生文件的存储路径 -->  
      <property>  
          <name>hadoop.tmp.dir</name>  
          <value>/usr/local/hadoop/hadoop-2.9.0/tmp</value>  
      </property>  
      </configuration>
    • tmp文件夹是我自己创建的,hadoop不自带,特此说明

    • fs.defaultFS直接用localhost就行,如果重命名了主机名,也可以用重命名的。比如说你重命名为xxxx那么就用xxxx替代localhost
    • 修改/usr/local/hadoop/hadoop-2.9.0/etc/hadoop/hdfs-site.xml

      <configuration>  
      <property>  
          <name>dfs.name.dir</name>  
          <value>/usr/hadoop/hdfs/name</value>  
          <description>namenode上存储hdfs名字空间元数据 </description>   
      </property>  
      
      <property>  
          <name>dfs.data.dir</name>  
          <value>/usr/hadoop/hdfs/data</value>  
          <description>datanode上数据块的物理存储位置</description>  
      </property>  
      
      <!-- 设置hdfs副本数量 -->  
      <property>  
          <name>dfs.replication</name>
          <value>1</value>  
      </property>  
      </configuration>  
    • SSH免密登录,这里的和SSH免密登录和前面的SSH免密登录互不影响,不冲突,如果这里不配置的话,后面启动的时候也会提示你是否要连接,所以还是配置比较好

      ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  
      cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys  
      chmod 0600 ~/.ssh/authorized_keys
    • HDFS的启动与停止(第一次启动需要格式化)

      • 启动命令

        cd /usr/local/hadoop/hadoop-2.9.0
        ./bin/hdfs namenode -format
        ./sbin/start-dfs.sh
      • 停止命令

        ./sbin/stop-dfs.sh 
    • 然后在浏览器中输入http://yourIP:50070就可以看到效果了,如果没有的话,证明上面没有配置好,
  • yarn配置

    在hadoop中,默认mapred-site.xml的名字是mapred-site.xm.template,所以我们要先用MV命令修改名字,

    mv /usr/local/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml
    • 编辑mapred-site.xml
      sudo vim + mapred-site.xml
        <configuration>  
        <!-- 通知框架MR使用YARN -->  
        <property>  
             <name>mapreduce.framework.name</name>  
            <value>yarn</value>  
        </property>  
    </configuration>
    • 配置yarn-site.xml

      <configuration>  
      <!-- reducer取数据的方式是mapreduce_shuffle -->  
          <property>  
              <name>yarn.nodemanager.aux-services</name>  
              <value>mapreduce_shuffle</value>  
          </property>  
      </configuration>
    • 启动和停止yarn

       cd /usr/local/hadoop/hadoop-2.9.0
      ./sbin/start-yarn.sh
    • 停止yarn

      ./sbin/stop-yarn.sh
    • 在浏览器输入http://yourIp:8088,就可以看到成果了

到这里Hadoop配置工作就完成了,集群的配置以后配置成功了再写成教程发出来,最后感谢志声大神,随便奉上我志声大神的博客地址里面可是满满的干货哦,对于有兴趣的朋友可以加入我们的qq群一起探讨:528776268,或者关注猿blog公众号,谢谢大家

2018-09-09 23:05:39 bigdollar 阅读数 1056

在启动hive时,报告Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path错误
解决办法:在命令行中执行

$cp hive-env.sh.template hive-env.sh

在hive-env.sh文件里加下面的内容:

$ vi hive-env.sh
Export HADOOP_HOME=/home/**/hadoop-2.5.2/                                     
$ source hive-env.sh

Hadoop端口一览表

阅读数 4883

Hadoop KMS 使用

阅读数 2443

没有更多推荐了,返回首页