hadoop 订阅
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算 [1]  。 展开全文
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算 [1]  。
信息
核心设计
HDFS和MapReduce
外文名
Hadoop
类    别
电脑程序
中文名
海杜普
学    科
信息科学
全    称
Hadoop Distributed File System
Hadoop起源
Hadoop起源于Apache Nutch项目,始于2002年,是Apache Lucene的子项目之一 [2]  。2004年,Google在“操作系统设计与实现”(Operating System Design and Implementation,OSDI)会议上公开发表了题为MapReduce:Simplified Data Processing on Large Clusters(Mapreduce:简化大规模集群上的数据处理)的论文之后,受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架,并将它与NDFS(Nutch Distributed File System)结合,用以支持Nutch引擎的主要算法 [2]  。由于NDFS和MapReduce在Nutch引擎中有着良好的应用,所以它们于2006年2月被分离出来,成为一套完整而独立的软件,并被命名为Hadoop。到了2008年年初,hadoop已成为Apache的顶级项目,包含众多子项目,被应用到包括Yahoo在内的很多互联网公司 [2]  。
收起全文
精华内容
参与话题
问答
  • Hadoop

    千次阅读 2018-09-17 23:47:00
    HADOOP介绍 1、 什么是HADOOP (1)HADOOP是apache旗下的一套开源软件平台 (2)HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 (3)HADOOP的核心组件有:  HDFS...

    HADOOP介绍

    1、 什么是HADOOP

    (1)HADOOP是apache旗下的一套开源软件平台

    (2)HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

    (3)HADOOP的核心组件有:

    •  HDFS(分布式文件系统)
    • YARN(运算资源调度系统)
    • MAPREDUCE(分布式运算编程框架)

    (4)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈

    2、 HADOOP产生背景

    (1)HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

    (2)2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案

    ——分布式文件系统(GFS),可用于处理海量网页的存储

    ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。

    (3)Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。

    3、 HADOOP在大数据、云计算中的位置和关系

    1. 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端用户。
    2. 现阶段,云计算的两大底层支撑技术为“虚拟化”和“大数据技术
    3. 而HADOOP则是云计算的PaaS层的解决方案之一,并不等同于PaaS,更不等同于云计算本身。

    4 、HADOOP应用案例

    1、HADOOP应用于数据服务基础平台建设

    2、HADOOP用于用户画像

    3、HADOOP用于网站点击流日志数据挖掘

    金融行业: 个人征信分析

    证券行业: 投资模型分析

    交通行业: 车辆、路况监控分析

    电信行业:用户上网行为分析

    ......

    总之:hadoop并不会跟某种具体的行业或者某个具体的业务挂钩,它只是一种用来做海量数据分析处理的工具

    展开全文
  • Hadoop入门和大数据应用

    万人学习 2015-09-01 17:01:44
    Hadoop入门和大数据应用视频教程,该课程主要分享Hadoop基础及大数据方面的基础知识。 讲师介绍:翟周伟,就职于百度,Hadoop技术讲师,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用...
  • Hadoop分布式

    万次阅读 2017-11-13 10:46:53
    之前介绍了单节点,部署伪分布式hadoop集群,可以作为自己使用,但是真正投入生产环境,伪分布式是不够的,仅仅作为个人研究测试使用,此时我们需要部署搭建hadoop完全分布式集群,此hadoop性能将更加强悍,满足...

    应用场景

    之前介绍了单节点,部署伪分布式hadoop集群,可以作为自己使用,但是真正投入生产环境,伪分布式是不够的,仅仅作为个人研究测试使用,此时我们需要部署搭建hadoop完全分布式集群,此hadoop性能将更加强悍,满足生产需求,下面就搭建Apache Hadoop2.6.0环境演示。

    操作步骤

    1. 配置网络[每个节点]

    网络配置博客

    2. 关闭防火墙[每个节点]

     # systemctl stop firewalld.service
     # systemctl disable firewalld.service
    
     # vim /etc/selinux/config   #设置selinux = disabled
    

    3. 修改主机名和配置hosts[每个节点]

     # vim  /etc/hostname      #3个节点分别命为hadoop0,hadoop1,hadoop2
     # vim  /etc/hosts    #添加3个节点ip以及对应的主机名
    

    4. 配置3个节点间的SSH互信

    配置SSH互信博客

    5. 配置时间同步

    NTP配置时间同步博客

    6. 安装jdk[每个节点]

    jdk安装教程博客

    7. 主节点安装mysql[主节点]

    mysql安装教程博客

    8. 安装配置hadoop2.6.0集群

    hadoop2.6.0下载地址

    8.1 安装hadoop
    操作步骤:
    1.将下载的hadoop2.6.0压缩包,上传到主节点的opt目录下
    2.进行解压缩
    3.配置环境变量
    4.新建所需要的目录
    
    # cd /opt
    # tar -xzvf hadoop-2.6.0-x64.tar.gz
    # mv hadoop-2.6.0 hadoop2.6.0     #解压hadoop安装包,并且修改目录为hadoop2.6.0
    
    # vim /etc/profile    修改配置文件,加入hadoop的环境变量
        export JAVA_HOME=/opt/jdk1.8
        export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
        export PATH=$PATH:$JAVA_HOME/bin
        export HADOOP_HOME=/opt/hadoop2.6.0
        export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
      
    #mkdir  /opt/hadoop2.6.0/tmp      #创建目录,后续搭建过程中需要使用
    #mkdir  /opt/hadoop2.6.0/var  
    #mkdir  /opt/hadoop2.6.0/dfs  
    #mkdir  /opt/hadoop2.6.0/dfs/name  
    #mkdir  /opt/hadoop2.6.0/dfs/data  
    
    8.2 修改hadoop-env.sh文件

    cd /opt/hadoop2.6.0/etc/hadoop/

    vim hadoop-env.sh

    将:export JAVA_HOME=${JAVA_HOME}
    修改为:export JAVA_HOME=/opt/jdk1.8 #修改为jdk目录

    8.3 修改slaves文件

    cd /opt/hadoop2.6.0/etc/hadoop/

    vim slaves

    hadoop0
    hadoop1
    hadoop2
    #此时是这种情况,hadoop0作为主节点,以及主备节点,管理节点,而同时hadoop0,hadoop1,hadoop2都作为数据节点!

    8.4 修改core-site.xml文件
     # cd /opt/hadoop2.6.0/etc/hadoop/ 
     # vim core-site.xml
    
    <configuration>
     <property>
            <name>hadoop.tmp.dir</name>
            <value>/opt/hadoop2.6.0/tmp</value>
            <description>Abase for other temporary directories.</description>
       </property>
       <property>
            <name>fs.default.name</name>
            <value>hdfs://hadoop0:9000</value>
       </property>
    </configuration>
    
    8.5 修改hdfs-site.xml文件
     # cd /opt/hadoop2.6.0/etc/hadoop/ 
     # vim hdfs-site.xml
    
    <configuration>
    <property>
       <name>dfs.name.dir</name>
       <value>/opt/hadoop2.6.0/dfs/name</value>
       <description>Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.</description>
    </property>
    <property>
       <name>dfs.data.dir</name>
       <value>/opt/hadoop2.6.0/dfs/data</value>
       <description>Comma separated list of paths on the localfilesystem of a DataNode where it should store its blocks.</description>
    </property>
    <property>
       <name>dfs.replication</name>
       <value>3</value>
    </property>
    <property>
          <name>dfs.permissions</name>
          <value>false</value>
          <description>need not permissions</description>
    </property>
    </configuration>
    
    8.6 修改mapred-site.xml文件
     # cd /opt/hadoop2.6.0/etc/hadoop/ 
     # cp   mapred-site.xml.template mapred-site.xml  
     # vim hdfs-site.xml
    
    <configuration>
     <property>
        <name>mapred.job.tracker</name>
        <value>hadoop0:49001</value>
    </property>
    <property>
          <name>mapred.local.dir</name>
           <value>/opt/hadoop2.6.0/var</value>
    </property>
    <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
    </property>
    </configuration>
    
    8.7 修改yarn-site.xml文件
     # cd /opt/hadoop2.6.0/etc/hadoop/ 
     # vim yarn-site.xml
    
    <configuration>
    
    <!-- Site specific YARN configuration properties -->
    <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>hadoop0</value>
       </property>
       <property>
            <description>The address of the applications manager interface in the RM.</description>
            <name>yarn.resourcemanager.address</name>
            <value>${yarn.resourcemanager.hostname}:8032</value>
       </property>
       <property>
            <description>The address of the scheduler interface.</description>
            <name>yarn.resourcemanager.scheduler.address</name>
            <value>${yarn.resourcemanager.hostname}:8030</value>
       </property>
       <property>
            <description>The http address of the RM web application.</description>
            <name>yarn.resourcemanager.webapp.address</name>
            <value>${yarn.resourcemanager.hostname}:8088</value>
       </property>
       <property>
            <description>The https adddress of the RM web application.</description>
            <name>yarn.resourcemanager.webapp.https.address</name>
    <value>${yarn.resourcemanager.hostname}:8090</value>
       </property>
       <property>
            <name>yarn.resourcemanager.resource-tracker.address</name>
            <value>${yarn.resourcemanager.hostname}:8031</value>
       </property>
       <property>
            <description>The address of the RM admin interface.</description>
            <name>yarn.resourcemanager.admin.address</name>
            <value>${yarn.resourcemanager.hostname}:8033</value>
       </property>
       <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
       </property>
       <property>
            <name>yarn.scheduler.maximum-allocation-mb</name>
            <value>12288</value>
            <discription>每个节点可用内存,单位MB,默认8182MB</discription>
       </property>
    </configuration>
    

    注:在主节点上配置好hadoop包后,同步到另外两个节点,配置不用修改,三个节点的配置都一样!
    拷贝过去要注意目录是否有权限:chmod 777 -R /opt/hadoop2.6.0 【如果没有权限,会导致data节点无法启动】

    9. hadoop集群的初始化以及启动【主节点hadoop0上操作】

    在管理节点上进行初始化以及启动

     # cd   /opt/hadoop2.6.0/bin
     # ./hadoop  namenode  -format      #初始化hadoop集群
    

    格式化成功后,可以在看到在/opt/hadoop2.6.0/dfs/name/目录多了一个current目录,而且该目录内有4个文件。

     # cd    /opt/hadoop2.6.0/sbin
     #  ./start-all.sh                      #启动hadoop集群
    

    10. 集群验证

    10.1 分别在3个节点上参看进程,用jps命令

    这里写图片描述

    这里写图片描述

    这里写图片描述

    10.2 web页面测试

    这里写图片描述

    这里写图片描述

    展开全文
  • hadoop端口

    万次阅读 2017-11-20 14:03:40
    Hadoop部署完分布式集群后,运行了一些组件,会产生很多进程,和web可以访问的端口,容易混淆,这里把一些常见的进程,进程的作用和端口进行归纳,总结,方便区分。 操作步骤1. HDFS进程及端口 HDFS启动后包含的...

    应用场景

    Hadoop部署完分布式集群后,运行了一些组件,会产生很多进程,和web可以访问的端口,容易混淆,这里把一些常见的进程,进程的作用和端口进行归纳,总结,方便区分。

    操作步骤

    1. HDFS进程及端口

    HDFS启动后包含的进程有:NameNode,DataNode,SecondaryNameNode

    启动方法,在主节点:

     #  cd /opt/hadoop2.6.0/sbin/
     #  ./start-dfs.sh
    

    启动完后访问端口为50070,通过主节点IP加上端口即可访问:

    这里写图片描述

    2. YARN进程及端口

    YARN启动后包含的进程有:Resourcemanager,NodeManager

    启动方法,在主节点:

     # cd /opt/hadoop2.6.0/sbin/ 
     # ./start-yarn.sh
    

    启动完后访问端口为8088,通过主节点IP加上端口即可访问:

    这里写图片描述

    3. ZooKeeper进程

    Zookeeper启动后包含的进程是:QuorumPeerMain

    注:
    HQuorumPeer进程是hbase管理的zookeeper
    QuorumPeerMain进程就是zookeeper独立的进程

    也就是说,如果您用的是hbase的zookeeper,那么就是HQuorumPeer进程

    启动方法,在需要启动ZooKeeper的节点上:

     # cd /opt/zookeeper3.4.10/bin/ 
     # zkServer.sh start
    

    4. HBASE进程及端口

    Hbase启动后包含的进程有 : HMaster,HRegionServer

    启动方法,在主节点:

     # cd /opt/hbase1.2.6/bin 
     # ./start-hbase.sh
    

    启动完后访问端口为16010,通过主节点IP加上端口即可访问:

    这里写图片描述

    5. Spark进程及端口

    Spark启动后包含的进程有 : Master Worker

    启动方法,在主节点:

     # cd /opt/spark1.6.1/sbin 
     # ./start-all.sh
    

    启动完后访问端口为8080,通过主节点IP加上端口即可访问:【资源监控地址master】

    这里写图片描述

    启动后4040任务监控端口并没有开启,需要spark-shell --master spark://hadoop0:7077,执行:【任务监控地址Drive】

    这里写图片描述

    注意:

      spark-shell          【local模式,在4040端口监控任务】
      spark-shell --master spark://hadoop0:7077  【standalone模式,在8080端口监控任务】
      spark-shell --master yarn-client          【yarn-client模式,在yarn 8088端口监控任务】
      spark-shell --master yarn-cluster         【yarn-cluster模式,在yarn 8088端口监控任务】
    
    展开全文
  • Hadoop伪分布式

    万次阅读 2017-11-10 17:48:16
    在研究hadoop的过程中,当然需要部署hadoop集群,如果想要在本地简单试用hadoop,并且没有那么多服务器供你使用,那么伪分布式hadoop环境绝对是你最好的选择。 操作步骤1. 安装JDK1.1 查看是否安装了openjdk # ...

    应用场景

    在研究hadoop的过程中,当然需要部署hadoop集群,如果想要在本地简单试用hadoop,并且没有那么多服务器供你使用,那么伪分布式hadoop环境绝对是你最好的选择。

    操作步骤

    1. 安装JDK

    1.1 查看是否安装了openjdk

     # java -version
    
    openjdk version "1.8.0_65"
    OpenJDK Runtime Environment (build 1.8.0_65-b17)
    OpenJDK 64-Bit Server VM (build 25.65-b01, mixed mode)
    

    1.2 查看openjdk源

     # rpm -qa | grep java
    
    java-1.7.0-openjdk-1.7.0.91-2.6.2.3.el7.x86_64
    tzdata-java-2015g-1.el7.noarch
    python-javapackages-3.4.1-11.el7.noarch
    javapackages-tools-3.4.1-11.el7.noarch
    java-1.8.0-openjdk-headless-1.8.0.65-3.b17.el7.x86_64
    java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64
    java-1.7.0-openjdk-headless-1.7.0.91-2.6.2.3.el7.x86_64
    

    1.3 依次删除openjdk

     # rpm -e --nodeps java-1.7.0-openjdk-1.7.0.91-2.6.2.3.el7.x86_64 
     # rpm -e --nodeps tzdata-java-2015g-1.el7.noarch 
     # rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.65-3.b17.el7.x86_64 
     # rpm -e --nodeps java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64 
     # rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.91-2.6.2.3.el7.x86_64
    

    1.4 重新下载jdk

    将下载JDK的后缀为.tar.gz,上传到linux上,解压缩至/opt路径下
    jdk下载地址

    1.5 配置JDK环境变量

    # vim /etc/profile
    
    JAVA_HOME=/opt/jdk1.7.0_79
    JRE_HOME=/opt/jdk1.7.0_79/jre
    CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH
    PATH=$JAVA_HOME/bin:$PATH
    

    1.6 使变量生效

     # source /etc/profile
    

    2. SSH免秘钥登录

    2.1 正常登陆,节点跳转ssh,需要输入用户名密码,每次都需要输入,很麻烦,需要设置成免密码登录

     # ssh localhost
     
    The authenticity of host 'localhost (::1)' can't be established.
    ECDSA key fingerprint is 7b:10:e3:b5:ea:7d:29:be:77:83:1c:c0:1d:85:de:ba.
    Are you sure you want to continue connecting (yes/no)? yes
    Warning: Permanently added 'localhost' (ECDSA) to the list of known hosts.
    [root@localhost's password:
    Last login: Sat Apr  2 22:32:44 2016
    

    2.2 配置免密码登录

     # cd ~/.ssh/    #若没有该目录,请先执行一次
     # ssh localhost 
     # ssh-keygen -t rsa     #会有提示,都按回车就可以 
     # cat id_rsa.pub >> authorized_keys 
     # chmod 600 ./authorized_keys  # 加入授权
    

    2.3 再次登录,可免秘钥

     # ssh localhost
     
    Last login: Sat Apr  2 22:51:41 2016 from localhost
    

    3. 安装Hadoop

    3.1 解压Hadoop至/opt路径下

    下载hadoop2.6.0
    下载hadoop其他版本

    3.2 配置Hadoop环境变量

     # vim /etc/profile
    
    export JAVA_HOME=/opt/jdk1.7.0_79
    export HADOOP_HOME=/opt/hadoop-2.6.0
    export HADOOP_PREFIX=/opt/hadoop-2.6.0
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    

    3.3 使变量生效

     # source /etc/profile
    

    3.4 修改hadoop-env.sh

     # cd /opt/hadoop-2.6.0   # 进入hadoop目录,修改hadoop-env.sh,添加JAVA_HOME路径
     # vim etc/hadoop/hadoop-env.sh
    
    export JAVA_HOME=/opt/jdk1.7.0_79
    
     # bin/hadoop  # 执行hadoop指令,测试
    

    3.5 配置HDFS

    3.5.1 编辑core-site.xml

     # vim /opt/hadoop-2.6.0/etc/hadoop/core-site.xml
    
    <configuration>
     <property>
     <name>hadoop.tmp.dir</name>
     <value>file:/opt/hadoop-2.6.0/tmp</value>
     <description>Abase for other temporary directories.</description>
     </property>
     <property>
     <name>fs.defaultFS</name>
     <value>hdfs://192.168.208.110:9000</value>
     </property>
    </configuration>
    

    3.5.2 编辑hdfs-site.xml

     # vim /opt/hadoop-2.6.0/etc/hadoop/hdfs-site.xml
    
    <configuration>
     <property>
     <name>dfs.replication</name>
     <value>1</value>
     </property>
     <property>
     <name>dfs.namenode.name.dir</name>
     <value>file:/opt/hadoop-2.6.0/tmp/dfs/name</value>
     </property>
     <property>
     <name>dfs.datanode.data.dir</name>
     <value>file:/opt/hadoop-2.6.0/tmp/dfs/data</value>
     </property>
     <property>
     <name>dfs.permissions.enabled</name>
     <value>false</value>
     </property>
    </configuration>
    

    3.5.3 格式化

    [root@hadoop hadoop-2.6.0]# hdfs namenode -format
    
    省略N行
    16/04/02 22:54:15 INFO common.Storage: Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted.
    
    /************************************************************
    SHUTDOWN_MSG: Shutting down NameNode at bogon/221.192.153.42
    ************************************************************/
    

    3.5.4 开启HDFS

     # start-dfs.sh
     
    访问http://localhost:50070
    

    这里写图片描述

    3.5.5 HDFS简单使用案例

     # hdfs dfs -mkdir /user
     # hdfs dfs -mkdir /user/lei
     # hdfs dfs -put etc/hadoop input   # 如果出现没有input错误
     
         put: `input': No such file or directory
    
     # bin/hadoop fs -mkdir -p input     # 手动创建
     # hdfs dfs -put etc/hadoop input
     # hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
    
    
     # hdfs dfs -ls /      #查看文件
    
    DEPRECATED: Use of this script to execute hdfs command is deprecated.
    Instead use the hdfs command for it.
    Found 2 items
    drwxr-xr-x   - root supergroup          0 2016-04-02 23:39 input
    drwxr-xr-x   - root supergroup          0 2016-04-02 23:43 output
    

    3.6 YARN配置

    3.6.1 配置mapred-site.xml

     # cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
     # vim /opt/hadoop-2.6.0/etc/hadoop/mapred-site.xml
    
    <configuration> 
          <property>  
               <name>mapreduce.framework.name</name>  
               <value>yarn</value>  
          </property>  
          <property>  
               <name>mapred.job.tracker</name>  
               <value>192.168.208.110:10020</value>  
          </property> 
    </configuration>
    

    3.6.2 配置yarn-site.xml

     # vim /opt/hadoop-2.6.0/etc/hadoop/yarn-site.xml
    
    <configuration>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
    </configuration>
    

    3.6.3 启动YARN

     # start-yarn.sh
    
    访问http://localhost:8088
    

    这里写图片描述

    展开全文
  • hadoop

    千次阅读 2013-03-05 23:45:50
    1:Hadoop 版本: CDH3U5   本框内容为转载 系统  从CDH3b3开始不支持hadoop.job.ugi参数,请使用UserGroupInformation.doAs()方法代替。详细见我博客:http://heipark.iteye.com/blog/1178810  其它...
  • 本教程适用人群 如果你是以下的几类人中的一种 老板叫我搭建一个hadoop集群,但是我还什么都不... 我想学hadoop但是我是个完全不懂的小白,hadoop有这么多的东西,我究竟要学那些算是能学会hadoop? 那么你就是本...
  • Hadoop零基础教程,该课程主要为大家详细讲解YARN和MapReduce的构造,以及YARN和MapReduce的入门使用。通过本节课程带您一步步熟悉和掌握Hadoop基础。
  • 史上最详细的Hadoop环境搭建

    万次阅读 多人点赞 2017-10-10 15:23:59
    GitChat 作者:鸣宇淳 原文: 史上最详细的Hadoop环境搭建 关注公众号:GitChat 技术杂谈,一本正经的讲技术 【不要错过文末活动哦】前言Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对...
  • 一、部署规划 1、部署环境 各部署单元的软件部署情况如下: 二、环境准备 1、修改主机名 [root@VM1 ~]# vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=master60 ...HOSTNAME=slave...
  • ubuntu安装hadoop详细步骤

    万次阅读 2017-03-11 14:29:39
    ubuntu下安装hadoop详细步骤
  • Hadoop介绍

    万次阅读 2020-10-06 11:22:51
    Hadoop介绍Hadoop的介绍以及发展历史Hadoop的历史版本介绍Hadoop三大公司发型版本介绍Hadoop的模块组成 Hadoop的介绍以及发展历史 Hadoop之父Doug Cutting Hadoop最早起源于lucene下的Nutch。Nutch的设计目标是...
  • Hadoop 无法访问50070端口解决方法

    万次阅读 2020-10-07 09:34:31
    Hadoop 无法访问50070端口 首先检查配置文件是否有误 在主节点执行 (格式化集群) hadoop namenode -format 最后执行 start-all.sh
  • Ubuntu18.04安装hadoop

    万次阅读 多人点赞 2018-10-03 12:01:23
    hadoop-0.20.2.tar.gz只能在Linux中安装。 Hadoop相当于一个服务器,类似于Apache服务器的角色。我们可以在Linux上运行hadoop0.20.2。 二、Java的安装 Hadoop是基于Java开发的,,在Linux配置好Java环境。 ...
  • 转载请注明出处:http://blog.csdn.net/l1028386804/article/details/51538611 注:升级glib库解决问题请参加链接:... 配置完hadoop启动的时候出现如下警告信息: WARN util.NativeCodeLoad...
  • Hadoop大数据实战开发

    万人学习 2019-05-24 10:17:23
    介绍大数据技术生态圈主流技术框架的应用与发展,介绍如何搭建Hadoop大数据分布式系统集群平台、大数据分布式文件系统HDFS 、大数据分布式并行计算框架MapReduce。 本课程介绍大数据的学习基础。 本课程介绍...
  • 2017-09-05 10:14:17,973 INFO org.apache.hadoop.hdfs.StateChange: STATE* Safe mode ON, in safe mode extension. The reported blocks 189 has reached the threshold 0.9990 of total blocks 189. The number ...
  • hadoop-eclipse-plugin-2.6.0.jar程序文件

    千次下载 热门讨论 2014-12-20 17:39:40
    It takes me two days to find the root cause for the exceptions and finally generate this jar file for hadoop 2.6.0. 1.use hadoop 2.6.0. 2.change the hadoop_home and path to point to hadoop 2.6.0 3....
  • 大数据_04 【Hadoop

    万次阅读 2020-10-12 16:56:50
    大数据_04 【Hadoop】01 Hadoop的介绍以及发展历史02 Hadoop的历史版本介绍04 Hadoop三大公司发型版本介绍05 Hadoop的模块组成06 Hadoop集群安装部署 01 Hadoop的介绍以及发展历史 1. Hadoop最早起源于lucene下的...
  • 用通俗易懂的话说下hadoop是什么,能做什么

    万次阅读 多人点赞 2014-04-10 10:36:33
    1、hadoop是什么? (1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据...
  • hadoop版本apache hadoop 2.7.3,jdk-1.7 输入hadoop fs -ls,错误信息如下: hadoop@hadoop01 native]$ hadoop fs -ls 17/08/01 01:33:36 WARN ipc.Client: Exception encountered while connecting to the server...
  • 搭建了一个hadoop集群,用hdfs dfs -ls /命令,列出的是本地系统的根目录。 用hdfs dfs -ls hdfs://servicename/ 列出的目录才是hdfs上的目录,可能是什么原因? 执行hive创建的目录也是在本地系统目录上。 集群的...
  • 大数据视频_Hadoop视频教程(上)

    千人学习 2019-02-28 14:11:55
     本课程中你将学习到,Hadoop完全分布式集群搭建、Hadoop源码编译、HDFS的Shell操作、HDFS的API操作、HDFS的IO流操作、HDFS读写数据流程、NameNode和SecondaryNameNode工作机制、DataNode工作机制、集群节点动态...
  • hadoop安装部署

    万次阅读 2020-10-06 20:00:13
    hadoop安装部署 这里写目录标题hadoop安装部署安装流程1、Hadoop安装部署1、1Hadoop安装部署 安装流程 1、 上传软件包到管理节点,在管理节点解压并配置 2、 将修改完的解压包,远程拷贝到所有的从节点 3、 启动软件...
  • hadoop入门介绍(一)

    万次阅读 2019-12-22 18:29:02
    hadoop是什么?(一) hadoop发展史 (二) Hadoop三大发行版本(三) Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 Apache版本最原始(最基础)的版本,对于入门学习最好。 Cloudera在大型...
  • Hadoop大数据从入门到精通

    万人学习 2016-09-28 10:02:15
    Hadoop分布式文件系统(HDFS)和MapReduce的工作原理 如何优化Hadoop机群所需要的硬件配置 搭建Hadoop机群所需要考虑的网络因素 如何利用Hadoop配置选项进行系统性能调优 如何利用FairScheduler为多用户提供服务级别...
  • hadoop添加白名单 以及 黑名单

    万次阅读 2019-10-26 03:49:29
    白名单用在刚搭建集群的时候使用,黑名单是正常...(1)在NameNode的/opt/module/hadoop-3.2.1/etc/hadoop目录下创建dfs.hosts文件 vim dfs.hosts 内容不允许有其他字符包括空格 hadoop112 hadoop113 hadoop114 ...
  • hadoop的安装配置

    万次阅读 2019-09-02 14:25:23
    下载上面百度网盘分享的hadoop安装包 hadoop环境依赖jdk所以需要提前配置好jdk环境:配置jdk环境看 https://blog.csdn.net/qq_41813208/article/details/100268044 第1步:创建文件夹 上传jdk...
  • 使用docker搭建hadoop分布式集群

    万次阅读 多人点赞 2016-01-13 18:16:26
    使用docker搭建部署hadoop分布式集群 在网上找了很长时间都没有找到使用docker搭建hadoop分布式集群的文档,没办法,只能自己写一个了。 一:环境准备: 1:首先要有一个Centos7操作系统,可以在虚拟机中安装...

空空如也

1 2 3 4 5 ... 20
收藏数 274,105
精华内容 109,642
关键字:

hadoop