精华内容
下载资源
问答
  • Linux下搭建spark集群开发环境

    千次阅读 2017-05-17 11:02:04
    之前在windows下搭建了一个spark的开发环境,但是后来发现如果想要搞spark streaming的例子的话在Linux下使用更方便,于是在centos7下面搭建一下spark开发环境,记录以做备忘之用。1 .首先去spark官网下载相关软件,...

    之前在windows下搭建了一个spark的开发环境,但是后来发现如果想要搞spark streaming的例子的话在Linux下使用更方便,于是在centos7下面搭建一下spark开发环境,记录以做备忘之用。

    1 .首先去spark官网下载相关软件,我这里用的是spark2.1.0版本http://spark.apache.org/downloads.html,对应的hadoop版本是2.7.0

    2 .
    这里写图片描述 .

    3 .之后利用XSheel5将下载的压缩包传递到linux的主节点的opt目录下,这里我的主节点的ip为192.168.70.100这里写图片描述

    4 .之后切换到opt目录下,用tar -zxvf命令进行解压缩,解压缩后得到去掉后缀的文件夹这里写图片描述

    5 .之后进入 vim /etc/profile,修改配置文件,添加spark的相关内容,见下图,之后退出用source /etc/profile进行保存
    这里写图片描述

    6 .接下来修改之前解压缩目录下的conf下的spark-env.sh文件,通过cp命令复制一下模板
    这里写图片描述

    7 .之后通过vim 进入,在末尾添加这些东西见下图,最后一个是主节点的ip地址,根据实际情况改成自己的
    这里写图片描述

    8 .在这之前先在任何一个位置输入spark-shell,测试一下环境变量是否配置成功,如果出现下面这个图表明成功
    这里写图片描述

    9 .接下来修改spark下的conf下面的slaves文件,添加子节点的ip地址,如果这里没有这个文件,可以通过cp 命令进行复制slaves模板得到,我这里有三个子节点,根据自己的实际情况进行修改即可这里写图片描述

    10 .将上面这个保存,到此主节点的spark的相关配置已经完成,接下来只需要将该配置分发到其他子节点即可,之前已经配置了免密登录,如果这里有问题,可以参考我之前写的免密登录的相关内容,我这里有三个子节点,全部拷贝到相同目录下即可
    这里写图片描述

    11 .之后先启动hadoop,分别调用start-dfs.sh和start-yarn.sh,之后进入spark的sbin目录启动start-master.sh和start-slaves.sh,启动完毕后在主节点和子节点分别调用jps查看进程如下图
    这里写图片描述
    这里写图片描述

    12 .之后登录8080查看spark的管理界面,出现下图说明集群搭建成功暂时告一段落,这里根据自己的主节点的ip地址进行修改即可。
    这里写图片描述

    13 .接下里就可以进行实操了,如果搭建过程有什么问题可以联系我。。。。

    展开全文
  • Linux安装Spark集群(CentOS7+Spark2.1.1+Hadoop2.8.0)

    万次阅读 多人点赞 2017-05-16 22:35:15
    Linux安装Spark(CentOS7+Spark2.1.1+Hadoop2.8.0)-v1.0.0版本号:CentOS7 Hadoop2.8.0 Spark2.1.1 Scala2.12.2 JDK1.8


    1 安装Spark依赖的Scala

              1.1下载和解压缩Scala

              1.2 配置环境变量

              1.3 验证Scala

    2下载和解压缩Spark

              2.1 下载Spark压缩包

              2.2 解压缩Spark

    3 Spark相关的配置

              3.1 配置环境变量

              3.2 配置conf目录下的文件

                      3.2.1 新建spark-env.h文件

                      3.2.2 新建slaves文件

    4 启动和测试Spark集群

             4.1 启动Spark

             4.2 测试和使用Spark集群

                     4.2.1访问Spark集群提供的URL

                     4.2.2运行Spark提供的计算圆周率的示例程序

     

    关键字:Linux   CentOS  Hadoop  Spark   Scala   Java

    版本号:CentOS7  Hadoop2.8.0  Spark2.1.1   Scala2.12.2   JDK1.8

     

              说明:Spark可以在只安装了JDK、Scala的机器上直接单机安装,但是这样的话只能使用单机模式运行不涉及分布式运算和分布式存储的代码,例如可以单机安装Spark,单机运行计算圆周率的Spark程序。但是我们要运行的是Spark集群,并且需要调用Hadoop的分布式文件系统,所以请你先安装HadoopHadoop集群的安装可以参考该博文:

            http://blog.csdn.net/pucao_cug/article/details/71698903

            安装单机版的Spark可以参考该博文:

             http://blog.csdn.net/pucao_cug/article/details/72377219

            Spark集群的最小化安装只需要安装这些东西:JDK  、Scala  、Hadoop  、Spark

    1 安装Spark依赖的Scala

              Hadoop的安装请参考上面提到的博文,因为Spark依赖scala,所以在安装Spark之前,这里要先安装scala。在每个节点上都进行安装。

    1.1  下载和解压缩Scala

            打开地址:http://www.scala-lang.org/

            目前最新版是2.12.2,我就安装该版本

            如图:

    直接打开下面的地址也可以:

    http://www.scala-lang.org/download/2.12.2.html

    如图:

          

    直接用下面的地址下载tgz包也可以:

          https://downloads.lightbend.com/scala/2.12.2/scala-2.12.2.tgz

     

    在Linux服务器的opt目录下新建一个名为scala的文件夹,并将下载的压缩包上载上去

    如图:

       

       

    执行命令,进入到该目录:

    cd    /opt/scala

    执行命令进行解压缩:

    tar   -xvf    scala-2.12.2

    1.2  配置环境变量

           编辑/etc/profile这个文件,在文件中增加一行配置:

    export    SCALA_HOME=/opt/scala/scala-2.12.2

          在该文件的PATH变量中增加下面的内容:

      ${SCALA_HOME}/bin

          添加完成后,我的/etc/profile的配置如下:

    export JAVA_HOME=/opt/java/jdk1.8.0_121
    export HADOOP_HOME=/opt/hadoop/hadoop-2.8.0
    export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
    export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native
    export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib"
    export HIVE_HOME=/opt/hive/apache-hive-2.1.1-bin
    export HIVE_CONF_DIR=${HIVE_HOME}/conf
    export SQOOP_HOME=/opt/sqoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha
    export HBASE_HOME=/opt/hbase/hbase-1.2.5
    export ZK_HOME=/opt/zookeeper/zookeeper-3.4.10
    export SCALA_HOME=/opt/scala/scala-2.12.2
    export CLASS_PATH=.:${JAVA_HOME}/lib:${HIVE_HOME}/lib:$CLASS_PATH
    export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${ZK_HOME}/bin:${HIVE_HOME}/bin:${SQOOP_HOME}/bin:${HBASE_HOME}/bin:${SCALA_HOME}/bin:$PATH

             说明:你可以只关注开头说的JDK  SCALA   Hadoop  Spark的环境变量,其余的诸如Zookeeper、Hbase、Hive、Sqoop都不用管。

            如图:

          环境变量配置完成后,执行下面的命令:

    source   /etc/profile

    1.3 验证Scala

        执行命令:

    scala     -version

       如图:

        

    2 下载和解压缩Spark

          在每个节点上都安装Spark,也就是重复下面的步骤。

    2.1 下载Spark压缩包

          打开下载地址:

    http://spark.apache.org/downloads.html

      如图:

            

     

           点击上图的 Download Spark,相当于是直接打开地址:

           https://www.apache.org/dyn/closer.lua/spark/spark-2.1.1/spark-2.1.1-bin-hadoop2.7.tgz

          下载后得到了大约200M的文件: spark-2.1.1-bin-hadoop2.7

            直接用下面的地址下面也可以:

           http://mirrors.hust.edu.cn/apache/spark/spark-2.1.1/spark-2.1.1-bin-hadoop2.7.tgz

     

    2.2  解压缩Spark

           下载完成后,在Linux服务器的opt目录下新建一个名为spark的文件夹,把刚才下载的压缩包,上载上去。

    如图:

    进入到该目录内,也就是执行下面的命令:

    cd    /opt/spark

    执行解压缩命令:

    tar   -zxvf   spark-2.1.1-bin-hadoop2.7.tgz

    3  Spark相关的配置

             说明:因为我们搭建的是基于hadoop集群的Spark集群,所以每个hadoop节点上我都安装了Spark,都需要按照下面的步骤做配置,启动的话只需要在Spark集群的Master机器上启动即可,我这里是在hserver1上启动。

    3.1  配置环境变量

    编辑/etc/profile文件,增加

    export  SPARK_HOME=/opt/spark/spark-2.1.1-bin-hadoop2.7

          上面的变量添加完成后编辑该文件中的PATH变量,添加

    ${SPARK_HOME}/bin

          注意:因为$SPARK_HOME/sbin目录下有一些文件名称和$HADOOP_HOME/sbin目录下的文件同名,为了避免同名文件冲突,这里不在PATH变量里添加$SPARK_HOME/sbin只添加了$SPARK_HOME/bin

    修改完成后,我的/etc/profile文件内容是:

    export JAVA_HOME=/opt/java/jdk1.8.0_121
    export HADOOP_HOME=/opt/hadoop/hadoop-2.8.0
    export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
    export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native
    export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib"
    export HIVE_HOME=/opt/hive/apache-hive-2.1.1-bin
    export HIVE_CONF_DIR=${HIVE_HOME}/conf
    export SQOOP_HOME=/opt/sqoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha
    export HBASE_HOME=/opt/hbase/hbase-1.2.5
    export ZK_HOME=/opt/zookeeper/zookeeper-3.4.10
    export SCALA_HOME=/opt/scala/scala-2.12.2
    export SPARK_HOME=/opt/spark/spark-2.1.1-bin-hadoop2.7
    export CLASS_PATH=.:${JAVA_HOME}/lib:${HIVE_HOME}/lib:$CLASS_PATH
    export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${ZK_HOME}/bin:${HIVE_HOME}/bin:${SQOOP_HOME}/bin:${HBASE_HOME}:${SCALA_HOME}/bin:$PATH

          说明:你可以只关注开头说的JDK  SCALA   Hadoop  Spark的环境变量,其余的诸如Zookeeper、Hbase、Hive、Sqoop都不用管。 

          如图:

    编辑完成后,执行命令:

    source    /etc/profile

    3.2 配置conf目录下的文件

             对/opt/spark/spark-2.1.1-bin-hadoop2.7/conf目录下的文件进行配置。

    3.2.1  新建spark-env.h文件

            执行命令,进入到/opt/spark/spark-2.1.1-bin-hadoop2.7/conf目录内:

    cd    /opt/spark/spark-2.1.1-bin-hadoop2.7/conf

           以spark为我们创建好的模板创建一个spark-env.h文件,命令是:

    cp    spark-env.sh.template   spark-env.sh

         如图:

        编辑spark-env.h文件,在里面加入配置(具体路径以自己的为准):

    export SCALA_HOME=/opt/scala/scala-2.12.2
    export JAVA_HOME=/opt/java/jdk1.8.0_121
    export HADOOP_HOME=/opt/hadoop/hadoop-2.8.0
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export SPARK_HOME=/opt/spark/spark-2.1.1-bin-hadoop2.7
    export SPARK_MASTER_IP=hserver1
    export SPARK_EXECUTOR_MEMORY=1G

    3.2.2 新建slaves文件

    执行命令,进入到/opt/spark/spark-2.1.1-bin-hadoop2.7/conf目录内:

    cd   /opt/spark/spark-2.1.1-bin-hadoop2.7/conf

    以spark为我们创建好的模板创建一个slaves文件,命令是:

    cp    slaves.template   slaves

    如图:

    编辑slaves文件,里面的内容为:

    hserver2
    hserver3

    4 启动和测试Spark集群

    4.1 启动Spark

              因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行。Hadoop2.8.0的安装和启动,请参考该博文:

    http://blog.csdn.net/pucao_cug/article/details/71698903

            在hadoop正常运行的情况下,在hserver1(也就是hadoop的namenode,spark的marster节点)上执行命令:

       cd   /opt/spark/spark-2.1.1-bin-hadoop2.7/sbin

        执行启动脚本:

      ./start-all.sh

      如图:

      完整内容是:

     [root@hserver1 sbin]# cd/opt/spark/spark-2.1.1-bin-hadoop2.7/sbin
    [root@hserver1 sbin]# ./start-all.sh
    starting org.apache.spark.deploy.master.Master,logging to/opt/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-hserver1.out
    hserver2: startingorg.apache.spark.deploy.worker.Worker, logging to/opt/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-hserver2.out
    hserver3: startingorg.apache.spark.deploy.worker.Worker, logging to/opt/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-hserver3.out
    [root@hserver1 sbin]#

             注意:上面的命令中有./这个不能少,./的意思是执行当前目录下的start-all.sh脚本。

    4.2  测试和使用Spark集群

    4.2.1  访问Spark集群提供的URL

            在浏览器里访问Mster机器,我的Spark集群里Master机器是hserver1,IP地址是192.168.27.143,访问8080端口,URL是:http://192.168.27.143:8080/

           如图:

    4.2.2  运行Spark提供的计算圆周率的示例程序

          这里只是简单的用local模式运行一个计算圆周率的Demo。按照下面的步骤来操作。

          第一步,进入到Spark的根目录,也就是执行下面的脚本:

    cd     /opt/spark/spark-2.1.1-bin-hadoop2.7

    如图:

            

    第二步,调用Spark自带的计算圆周率的Demo,执行下面的命令:

    ./bin/spark-submit  --class  org.apache.spark.examples.SparkPi  --master local   examples/jars/spark-examples_2.11-2.1.1.jar

            命令执行后,spark示例程序已经开始执行

            如图:

            很快执行结果出来了,执行结果我用红框标出来了

    如图:

            完整的控制台输出是:

    [root@hserver1 bin]# cd  /opt/spark/spark-2.1.1-bin-hadoop2.7
    [root@hserver1 spark-2.1.1-bin-hadoop2.7]# ./bin/spark-submit--class org.apache.spark.examples.SparkPi --master localexamples/jars/spark-examples_2.11-2.1.1.jar
    17/05/16 14:26:23 INFO spark.SparkContext: Running Spark version2.1.1
    17/05/16 14:26:24 WARN util.NativeCodeLoader: Unable to loadnative-hadoop library for your platform... using builtin-java classes whereapplicable
    17/05/16 14:26:25 INFO spark.SecurityManager: Changing view acls to:root
    17/05/16 14:26:25 INFO spark.SecurityManager: Changing modify aclsto: root
    17/05/16 14:26:25 INFO spark.SecurityManager: Changing view aclsgroups to:
    17/05/16 14:26:25 INFO spark.SecurityManager: Changing modify aclsgroups to:
    17/05/16 14:26:25 INFO spark.SecurityManager: SecurityManager:authentication disabled; ui acls disabled; users  with view permissions: Set(root); groups withview permissions: Set(); users  withmodify permissions: Set(root); groups with modify permissions: Set()
    17/05/16 14:26:25 INFO util.Utils: Successfully started service'sparkDriver' on port 40855.
    17/05/16 14:26:26 INFO spark.SparkEnv: Registering MapOutputTracker
    17/05/16 14:26:26 INFO spark.SparkEnv: RegisteringBlockManagerMaster
    17/05/16 14:26:26 INFO storage.BlockManagerMasterEndpoint: Usingorg.apache.spark.storage.DefaultTopologyMapper for getting topology information
    17/05/16 14:26:26 INFO storage.BlockManagerMasterEndpoint:BlockManagerMasterEndpoint up
    17/05/16 14:26:26 INFO storage.DiskBlockManager: Created localdirectory at /tmp/blockmgr-cf8cbb42-95d2-4284-9a48-67592363976a
    17/05/16 14:26:26 INFO memory.MemoryStore: MemoryStore started withcapacity 413.9 MB
    17/05/16 14:26:26 INFO spark.SparkEnv: RegisteringOutputCommitCoordinator
    17/05/16 14:26:26 INFO util.log: Logging initialized @5206ms
    17/05/16 14:26:27 INFO server.Server: jetty-9.2.z-SNAPSHOT
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@5118388b{/jobs,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Started o.s.j.s.ServletContextHandler@15a902e7{/jobs/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@7876d598{/jobs/job,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Started o.s.j.s.ServletContextHandler@4a3e3e8b{/jobs/job/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@5af28b27{/stages,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Started o.s.j.s.ServletContextHandler@71104a4{/stages/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@4985cbcb{/stages/stage,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@72f46e16{/stages/stage/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@3c9168dc{/stages/pool,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@332a7fce{/stages/pool/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@549621f3{/storage,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@54361a9{/storage/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@32232e55{/storage/rdd,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@5217f3d0{/storage/rdd/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@37ebc9d8{/environment,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@293bb8a5{/environment/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@2416a51{/executors,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@6fa590ba{/executors/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@6e9319f{/executors/threadDump,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@72e34f77{/executors/threadDump/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@7bf9b098{/static,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@389adf1d{/,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@77307458{/api,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@1fc0053e{/jobs/job/kill,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@290b1b2e{/stages/stage/kill,null,AVAILABLE,@Spark}
    17/05/16 14:26:27 INFO server.ServerConnector: StartedSpark@32fe9d0a{HTTP/1.1}{0.0.0.0:4040}
    17/05/16 14:26:27 INFO server.Server: Started @5838ms
    17/05/16 14:26:27 INFO util.Utils: Successfully started service'SparkUI' on port 4040.
    17/05/16 14:26:27 INFO ui.SparkUI: Bound SparkUI to 0.0.0.0, andstarted at http://192.168.27.143:4040
    17/05/16 14:26:27 INFO spark.SparkContext: Added JARfile:/opt/spark/spark-2.1.1-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.1.jarat spark://192.168.27.143:40855/jars/spark-examples_2.11-2.1.1.jar withtimestamp 1494915987472
    17/05/16 14:26:27 INFO executor.Executor: Starting executor IDdriver on host localhost
    17/05/16 14:26:27 INFO util.Utils: Successfully started service'org.apache.spark.network.netty.NettyBlockTransferService' on port 41104.
    17/05/16 14:26:27 INFO netty.NettyBlockTransferService: Servercreated on 192.168.27.143:41104
    17/05/16 14:26:27 INFO storage.BlockManager: Usingorg.apache.spark.storage.RandomBlockReplicationPolicy for block replicationpolicy
    17/05/16 14:26:27 INFO storage.BlockManagerMaster: RegisteringBlockManager BlockManagerId(driver, 192.168.27.143, 41104, None)
    17/05/16 14:26:27 INFO storage.BlockManagerMasterEndpoint:Registering block manager 192.168.27.143:41104 with 413.9 MB RAM,BlockManagerId(driver, 192.168.27.143, 41104, None)
    17/05/16 14:26:27 INFO storage.BlockManagerMaster: RegisteredBlockManager BlockManagerId(driver, 192.168.27.143, 41104, None)
    17/05/16 14:26:27 INFO storage.BlockManager: InitializedBlockManager: BlockManagerId(driver, 192.168.27.143, 41104, None)
    17/05/16 14:26:28 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@4e6d7365{/metrics/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:28 INFO internal.SharedState: Warehouse path is'file:/opt/spark/spark-2.1.1-bin-hadoop2.7/spark-warehouse'.
    17/05/16 14:26:28 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@705202d1{/SQL,null,AVAILABLE,@Spark}
    17/05/16 14:26:28 INFO handler.ContextHandler: Started o.s.j.s.ServletContextHandler@3e58d65e{/SQL/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:28 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@6f63c44f{/SQL/execution,null,AVAILABLE,@Spark}
    17/05/16 14:26:28 INFO handler.ContextHandler: Started o.s.j.s.ServletContextHandler@62a8fd44{/SQL/execution/json,null,AVAILABLE,@Spark}
    17/05/16 14:26:28 INFO handler.ContextHandler: Startedo.s.j.s.ServletContextHandler@1d035be3{/static/sql,null,AVAILABLE,@Spark}
    17/05/16 14:26:30 INFO spark.SparkContext: Starting job: reduce atSparkPi.scala:38
    17/05/16 14:26:30 INFO scheduler.DAGScheduler: Got job 0 (reduce atSparkPi.scala:38) with 2 output partitions
    17/05/16 14:26:30 INFO scheduler.DAGScheduler: Final stage:ResultStage 0 (reduce at SparkPi.scala:38)
    17/05/16 14:26:30 INFO scheduler.DAGScheduler: Parents of finalstage: List()
    17/05/16 14:26:30 INFO scheduler.DAGScheduler: Missing parents:List()
    17/05/16 14:26:30 INFO scheduler.DAGScheduler: SubmittingResultStage 0 (MapPartitionsRDD[1] at map at SparkPi.scala:34), which has nomissing parents
    17/05/16 14:26:30 INFO memory.MemoryStore: Block broadcast_0 storedas values in memory (estimated size 1832.0 B, free 413.9 MB)
    17/05/16 14:26:30 INFO memory.MemoryStore: Block broadcast_0_piece0stored as bytes in memory (estimated size 1167.0 B, free 413.9 MB)
    17/05/16 14:26:31 INFO storage.BlockManagerInfo: Addedbroadcast_0_piece0 in memory on 192.168.27.143:41104 (size: 1167.0 B, free:413.9 MB)
    17/05/16 14:26:31 INFO spark.SparkContext: Created broadcast 0 frombroadcast at DAGScheduler.scala:996
    17/05/16 14:26:31 INFO scheduler.DAGScheduler: Submitting 2 missingtasks from ResultStage 0 (MapPartitionsRDD[1] at map at SparkPi.scala:34)
    17/05/16 14:26:31 INFO scheduler.TaskSchedulerImpl: Adding task set0.0 with 2 tasks
    17/05/16 14:26:31 INFO scheduler.TaskSetManager: Starting task 0.0in stage 0.0 (TID 0, localhost, executor driver, partition 0, PROCESS_LOCAL,6026 bytes)
    17/05/16 14:26:31 INFO executor.Executor: Running task 0.0 in stage0.0 (TID 0)
    17/05/16 14:26:31 INFO executor.Executor: Fetchingspark://192.168.27.143:40855/jars/spark-examples_2.11-2.1.1.jar with timestamp1494915987472
    17/05/16 14:26:31 INFO client.TransportClientFactory: Successfullycreated connection to /192.168.27.143:40855 after 145 ms (0 ms spent inbootstraps)
    17/05/16 14:26:31 INFO util.Utils: Fetchingspark://192.168.27.143:40855/jars/spark-examples_2.11-2.1.1.jar to/tmp/spark-702c8654-489f-47f2-85e0-8b658ebb2988/userFiles-0a07fa86-4d14-4939-ad2b-95ac8488e187/fetchFileTemp3302336691796081023.tmp
    17/05/16 14:26:33 INFO executor.Executor: Addingfile:/tmp/spark-702c8654-489f-47f2-85e0-8b658ebb2988/userFiles-0a07fa86-4d14-4939-ad2b-95ac8488e187/spark-examples_2.11-2.1.1.jarto class loader
    17/05/16 14:26:34 INFO executor.Executor: Finished task 0.0 in stage0.0 (TID 0). 1114 bytes result sent to driver
    17/05/16 14:26:34 INFO scheduler.TaskSetManager: Starting task 1.0in stage 0.0 (TID 1, localhost, executor driver, partition 1, PROCESS_LOCAL,6026 bytes)
    17/05/16 14:26:34 INFO executor.Executor: Running task 1.0 in stage0.0 (TID 1)
    17/05/16 14:26:34 INFO scheduler.TaskSetManager: Finished task 0.0in stage 0.0 (TID 0) in 2815 ms on localhost (executor driver) (1/2)
    17/05/16 14:26:34 INFO executor.Executor: Finished task 1.0 in stage0.0 (TID 1). 1114 bytes result sent to driver
    17/05/16 14:26:34 INFO scheduler.TaskSetManager: Finished task 1.0in stage 0.0 (TID 1) in 416 ms on localhost (executor driver) (2/2)
    17/05/16 14:26:34 INFO scheduler.TaskSchedulerImpl: Removed TaskSet0.0, whose tasks have all completed, from pool
    17/05/16 14:26:34 INFO scheduler.DAGScheduler: ResultStage 0 (reduceat SparkPi.scala:38) finished in 3.269 s
    17/05/16 14:26:34 INFO scheduler.DAGScheduler: Job 0 finished:reduce at SparkPi.scala:38, took 4.404894 s
    Pi is roughly 3.1434157170785855
    17/05/16 14:26:34 INFO server.ServerConnector: StoppedSpark@32fe9d0a{HTTP/1.1}{0.0.0.0:4040}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@290b1b2e{/stages/stage/kill,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@1fc0053e{/jobs/job/kill,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@77307458{/api,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@389adf1d{/,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@7bf9b098{/static,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@72e34f77{/executors/threadDump/json,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@6e9319f{/executors/threadDump,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@6fa590ba{/executors/json,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@2416a51{/executors,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@293bb8a5{/environment/json,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stopped o.s.j.s.ServletContextHandler@37ebc9d8{/environment,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@5217f3d0{/storage/rdd/json,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@32232e55{/storage/rdd,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@54361a9{/storage/json,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@549621f3{/storage,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@332a7fce{/stages/pool/json,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@3c9168dc{/stages/pool,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@72f46e16{/stages/stage/json,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@4985cbcb{/stages/stage,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@71104a4{/stages/json,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@5af28b27{/stages,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@4a3e3e8b{/jobs/job/json,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@7876d598{/jobs/job,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@15a902e7{/jobs/json,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO handler.ContextHandler: Stoppedo.s.j.s.ServletContextHandler@5118388b{/jobs,null,UNAVAILABLE,@Spark}
    17/05/16 14:26:34 INFO ui.SparkUI: Stopped Spark web UI athttp://192.168.27.143:4040
    17/05/16 14:26:34 INFO spark.MapOutputTrackerMasterEndpoint:MapOutputTrackerMasterEndpoint stopped!
    17/05/16 14:26:34 INFO memory.MemoryStore: MemoryStore cleared
    17/05/16 14:26:34 INFO storage.BlockManager: BlockManager stopped
    17/05/16 14:26:34 INFO storage.BlockManagerMaster: BlockManagerMasterstopped
    17/05/16 14:26:34 INFOscheduler.OutputCommitCoordinator$OutputCommitCoordinatorEndpoint:OutputCommitCoordinator stopped!
    17/05/16 14:26:34 INFO spark.SparkContext: Successfully stoppedSparkContext
    17/05/16 14:26:34 INFO util.ShutdownHookManager: Shutdown hookcalled
    17/05/16 14:26:34 INFO util.ShutdownHookManager: Deleting directory/tmp/spark-702c8654-489f-47f2-85e0-8b658ebb2988
    [root@hserver1 spark-2.1.1-bin-hadoop2.7]#

               注意:上面只是使用了单机本地模式调用Demo,使用集群模式运行Demo,请参考该博文

    http://blog.csdn.net/pucao_cug/article/details/72453382

     

    展开全文
  • spark集群安装部署 注:本人的集群主节点为Hadoop01,安装包的路径/export/software 解压后的安装包放在/export/servers 1.下载spark的安装包 2.上传安装包到Hadoop01,并解压 (1)上传可以用rz命令 (2)解压 tar...

    spark集群安装部署

    注:本人的集群主节点为Hadoop01,安装包的路径/export/software
    解压后的安装包放在/export/servers
    1.下载spark的安装包
    在这里插入图片描述
    2.上传安装包到Hadoop01,并解压
    (1)上传可以用rz命令
    (2)解压

    tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /export/servers/
    

    解压完之后可以更改解压后的包名为spark

    mv spark-2.3.2-bin-hadoop2.7 spark
    

    3.进入到解压目录下的conf目录下,修改配置文件
    (1)复制spark-env.sh.template为spark-env.sh

    cp spark-env.sh.template spark-env.sh
    

    (2)编辑文件spark-env.sh

    vi spark-env.sh
    

    在最下边添加如下内容

    #配置java环境变量
    export JAVA_HOME=/export/servers/jdk
    #指定Master的IP
    export SPARK_MASTER_HOST=Hadoop01
    #指定Master的端口 
    export SPARK_MASTER_PORT=7077
    

    (3)复制slaves.template为slaves

    cp slaves.template slaves
    

    (4)编辑文件slaves
    将文件最下边的localhost改为

    Hadoop02
    Hadoop03
    

    4、文件分发
    将前边所配置和更改的文件发送给Hadoop02和Hadoop03

    scp -r /export/servers/spark Hadoop02:/export/servers/
    
    scp -r /export/servers/spark Hadoop03:/export/servers/
    

    5、启动spark
    在spark解压目录下

    启动spark命令:sbin/start-all.sh
    停止spark命令:sbin/stop-all.sh
    

    6、可以用jps命令查看是否启动成功
    如果在Hadoop01下出现Master进程,在Hadoop02和03下出现worker进程,则表示启动成功
    启动成功后,spark也可以像hadoop集群一样通过网页访问
    网址:http://Hadoop01:8080
    在这里插入图片描述
    如果想在任意目录下都可以启动spark,可以配置系统文件
    注意:配置该文件时,一定一定要小心,不要写错
    打开系统配置文件

    vi /etc/profile
    

    在最下边添加环境变量

    export SPARK_HOME=/export/servers/spark
    export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
    

    然后分发到其它两台虚拟机

    scp /etc/profile Hadoop02:/etc/profile
    
    scp /etc/profile Hadoop03:/etc/profile
    

    最后分别执行source /etc/profile 使文件生效

    到此为止,spark的环境已经搭建好了
    接下来我会写关于spark HA的环境搭建步骤

    展开全文
  • 今天给大家介绍如何在Linux虚拟机上搭建spark集群。 需要声明的是,此次安装的spark集群是在Hadoop完全分布式集群(1个master,2个slave)的基础之上搭建的,环境是3台64位的centos7虚拟机。 安装基础环境...

    本文选自微信公众号:superdiao的果壳

     

    今天给大家介绍如何在Linux虚拟机上搭建spark集群。

    需要声明的是,此次安装的spark集群是在Hadoop完全分布式集群(1个master,2个slave)的基础之上搭建的,环境是3台64位的centos7虚拟机。

     

    安装基础环境(SCALA环境)

    Scala2.12.7 环境搭建

    1)下载scala安装包scala-2.12.7.tgz,解压至 /opt/ 目录下

    tar -zxvf scala-2.12.7.tgz

    2)添加Scala环境变量,在~/.bashrc(当前用户下存放的环境变量)中添加:

    export SCALA_HOME=/opt/scala-2.12.7
    export PATH=$SCALA_HOME/bin:$PATH

    3)保存后刷新配置

    source  ~/.bashrc

     

    Spark2.4.0完全分布式环境搭建

    以下操作都在Master节点进行。

    1)下载二进制包spark-2.4.0-bin-hadoop2.7.tgz(如果Hadoop的版本是2.8.5也不必担心,两者可以很好地兼容)

    2)解压并移动到相应目录,命令如下:

    tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz
    mv spark-2.4.0-bin-hadoop2.7 /opt

    3)修改相应的配置文件。

    修改 ~/.bashrc,增加如下内容:

    export SPARK_HOME=/opt/spark-2.4.0-bin-hadoop2.7/
    export PATH=$PATH:$SPARK_HOME/bin

    进入/opt/spark-2.4.0-bin-hadoop2.7/conf

    复制 spark-env.sh.template 成 spark-env.sh

    cp spark-env.sh.template spark-env.sh

    修改$SPARK_HOME/conf/spark-env.sh,添加如下内容:

    export JAVA_HOME=/opt/jdk1.8.0_102
    export SCALA_HOME=/opt/scala-2.12.7
    export HADOOP_HOME=/opt/hadoop-2.8.5
    export HADOOP_CONF_DIR=/opt/hadoop-2.8.5/etc/hadoop
    export SPARK_MASTER_IP=192.168.38.129 #主机master的ip地址
    export SPARK_MASTER_HOST=192.168.38.129
    export SPARK_LOCAL_IP=192.168.38.129
    export SPARK_WORKER_MEMORY=2g #运行内存,视情况而变
    export SPARK_WORKER_CORES=2 #两个slave
    export SPARK_HOME=/opt/spark-2.4.0-bin-hadoop2.7
    export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.8.5/bin/hadoop classpath)

    复制$SPARK_HOME/conf/slaves目录下的slaves.template成slaves

    cp slaves.template slaves

    然后添加如下内容:

    master
    slave1
    slave2

    4)将配置好的spark文件复制到Slave1和Slave2节点。

    scp /opt/spark-2.4.0-bin-hadoop2.7 root@slave1:/opt
    scp /opt/spark-2.4.0-bin-hadoop2.7 root@slave2:/opt

    5)修改Slave1和Slave2配置。

    scp ~/.bashrc root@slave1:/root/
    scp ~/.bashrc root@slave2:/root/

    在Slave1和Slave2修改$SPARK_HOME/conf/spark-env.sh,将export SPARK_LOCAL_IP =192.168.38.129改成Slave1和Slave2对应节点的IP,然后再source一下环境变量。

    6)在Master节点启动集群。

    #为了避免冲突和更加直观,可以先改下脚本的名字。

    cp /opt/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh /opt/spark-2.4.0-bin-hadoop2.7/sbin/start-spark.sh
    start-spark.sh #因为该脚本的父目录已经在环境变量中了,所以可以直接运行。

    7)查看集群是否启动成功:

    jps

    Master在Hadoop的基础上新增了:Master

    Slave在Hadoop的基础上新增了:Worker

    8) 停止spark集群

    #为了避免和Hadoop的脚本名字冲突和更加直观,可以先改下脚本的名字。

    cp /opt/spark-2.4.0-bin-hadoop2.7/sbin/stop-all.sh /opt/spark-2.4.0-bin-hadoop2.7/sbin/stop-spark.sh
    stop-spark.sh #当然以后可以直接运行start-spark.sh来启动spark集群

    好了,搭建过程就此结束了~是不是感觉很容易呢?

    展开全文
  • 但是我们要运行的是Spark集群,并且需要调用Hadoop的分布式文件系统,所以请你先安装Hadoop,Hadoop集群的安装可以参考该博文:Hadoop完全分布式安装(Centos7+Hadoop2.5.0);安装单机版的Spark可以参考该博文 ...
  • Linux虚拟机下搭建Spark集群详细步骤

    千次阅读 2018-06-06 15:29:44
    一.完全分布式多节点 SSH 免密登录 ...生成本机的公钥,过程中不断敲回车即可, ssh-keygen ...jsp和8080端口可以检查集群是否启动成功 在浏览器输入: spark1:8080 进入 spark-shell查看是否正常 # spark-shell
  • Linux环境 spark集群搭建借鉴地址软件下载配置环境变量jdk配置spark配置 借鉴地址 转载(报错处理): https://blog.csdn.net/Abandon_Sun/article/details/76686398 转载(虚拟机克隆问题):...
  • 如果你没有hadoop环境,先参考 ...spark环境 获取部署包 官网下载spark的部署包,...上传到Linux服务器并解压 配置环境变量 vi /etc/profile # 将下面这两句加入环境变量,为了方便 export SPARK_HOME=/opt/
  • 相对路径 ./spark-submit --class com.dt.spark.WordCont_Cluster --master spark://7077 /root/Document/SparkApps/WordCont.jar .../usr/local/spark/spark-1.6.0/bin/spark-submit --class com.dt.spark.WordCon
  • Linux上部署Spark集群

    2019-10-14 10:33:14
    Spark集群部署方法一: //spark安装 1 解压缩/usr/local/app2/spark目录下 tar -zxvf spark-2.3.1-bin-hadoop2.6.tgz mv spark-2.3.1-bin-hadoop2.6 spark 2 环境变量,都需要配置 export SPARK_HOME=/usr/local/app...
  • Spark集群启动时worker节点启不起来

    千次阅读 2019-06-07 16:54:15
    spark集群中使用命令: sbin/start-all.sh 启动集群时报错: starting org.apache.spark.deploy.master.Master, logging to /home/yxk/cluster/spark/logs/spark-yxk-org.apache.spark.deploy.master.Master-...
  • 在学习spark过程中遇到的问题,做下记录,这个问题网上出现的不再少数,出现问题的原因也是各不相同,并且没有一个人的问题和我完全一样(我高兴得都快哭了),顺着大家的思路,尝试了两个多小时才搞明白。...
  • Spark是通用的基于内存计算的大数据框架,可以和hadoop生态系统很好的兼容,以下来部署Spark集群  集群环境:3节点 Master:bigdata1 Slaves:bigdata2,bigdata3  Master负责任务的分发,与集群状态的显示  ...
  • Flintrock是用于启动集群的命令行工具。 网路上的摩登原始人 Flintrock在网络上的一些讲座,指南和论文中都有介绍。 会谈: ( ) 指南: 在集群上运行Spark:基础知识(使用Flintrock) 文件: 用法 假设您已经...
  • 1下载安装JDK1.8 2 下载安装scala 修改配置文件: 3 安装Spark 修改配置文件: 4运行 Spark Shell 5 部署Spark本地伪分布式集群 ...5.3 启动Hadoop,启动Spark 5.6在本地伪集群中做一些实验 ...
  • Linux下安装spark集群

    2018-05-22 17:57:17
    2、安装Spark 3、配置Spark 修改配置文件spark-env.sh,在解压spark下的conf文件中 将模板文件复制出来 cp spark-env.sh.template spark-env.sh cp slave.template slave 4、配置spark和slave 配置...
  • 前期准备1.1 Win7官网下载spark包本文使用版本spark-1.6.2-bin-hadoop2.6.tgz1.2 配置jdkhadoop-2.6.5:hadoop分布式集群搭建1.3 centos7集群服务器主机名 系统 IP地址master centos7 192.168.32.128slave01 centos7 ...
  • spark集群在windows下搭建

    千次阅读 2019-11-15 14:35:24
    软件安装好后,启动spark就可以了,linux下有自动脚本start-all.sh可以直接启动,在windows下不能用,所以只能手动启动(D:/hadoop2.7,D:/spark是我的hadoop和spark目录)。 先启动master,打开CMD输入启动命令:java ...
  • linux spark分布式集群搭建图文详解

    千次阅读 2017-04-24 19:45:33
    1.1 Win7官网下载spark包 本文使用版本spark-1.6.2-bin-hadoop2.6.tgz 1.2 配置jdk jdk1.7:linux jdk安装和配置 scala2.10.6:linux scala安装和配置 hadoop-2.6.5:hadoop分布式集群搭建 1.3 centos7集群服务器...
  • Spark集群Win10本地开发环境搭建

    千次阅读 2020-06-16 09:09:08
    Win10 Spark集群本地开发环境搭建一、安装Java1.下载java2.安装java3.配置环境变量二、下载scala、安装Scala IDE1.下载Scala IDE2.解压zip包 这里附上WIN10利用docker toolbox搭建hadoop和spark集群的方法 一、安装...
  • 1. Spark 集群结构 名词解释 Driver 该进程调用 Spark 程序的 main 方法, 并且启动 SparkContext Cluster Manager 该进程负责和外部集群工具打交道, 申请或释放集群资源 Worker 该进程是一个守护进程, 负责...
  •  linux系统默认情况下,防火墙软件都是开启的,几乎所有的端口都是不对外开发的,spark集群内的各个节点间的通信需要用到相关的端口,如master节点的--webui-port:8080,worker节点的--webui-port:8081,master...
  • 本文主要讲解如何在Linux环境下安装Spark集群,安装之前我们需要Linux已经安装了JDK和Scala,因为Spark集群依赖这些。下面就如何安装Spark进行讲解说明。 一、安装环境 操作系统:Red Hat Enterprise Linux 6 64 ...
  • Spark分布式集群环境搭建小笔记

    千次阅读 2020-04-19 00:36:02
    文章目录写在前面搭建好Hadoop集群环境安装Spark(Master节点上操作)配置环境变量(Master节点上操作)Spark配置(Master节点上操作)配置Worker节点启动Spark集群(在Master节点上操作)关闭Spark集群(在Master...
  • Linux集群上部署Spark Spark安装部署比较简单, 用户可以登录其官方网站(http://spark.apache.org/downloads.html) 下载Spark最新版本或历史版本,也可以查阅Spark相关文档作为参考。本书开始写作时,本章所述的...
  • Linux下安装Spark集群

    2020-01-13 11:25:27
    1.安装Scala 2.下载解压安装包 cd /usr/local wget http://mirror.bit.edu.cn/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz tar -zxvf spark-2.4.4-bin...mv spark-2.4.4-bin-hadoop2.7 spark 3.配置环...
  • 2. Spark 集群搭建 目标 从 Spark集群架构开始, 理解分布式环境, 以及 Spark 的运行原理 理解 Spark集群搭建, 包括高可用的搭建方式 2.1. Spark 集群结构 目标 通过应用运行流程, 理解分布式...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,149
精华内容 4,859
关键字:

linux启动spark集群

linux 订阅